苹果决定删掉一个单词

您的位置：首页 > 金融 > 正文

苹果决定删掉一个单词

来源：凤凰网 2023-07-02 18:23:57

“Hey Siri”要成为历史了。

今年 6 月，iOS 17 发布开发者版本，其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。

(资料图片仅供参考)

但就是这么一个简单的变化，却愁坏一大堆程序员。从去年年末消息放出到现在将近半年，iOS 依然没有正式更新该功能。拿走一个“Hey”，对语音助手来说有多难？

为什么不要“Hey”了？

对着智能音箱或语音助手喊“Hey Siri”和“小爱同学”，这都叫做“唤醒词”，目的是让智能音箱知道你要开始对它说话下达指令了——这就像过年回家，你奶喊你：嘿，狗剩～赶紧把院里的鸡喂了去！

如下图所示，语音助手的工作分为四个模块，像人一样，它也需要先听到语音、理解语音、才能做出反应并通过语音反馈给用户。

语音助手的工作模块｜作者提供

其中“唤醒质量”是衡量语音助手好坏的重要指标，业内一般通过两个标准来衡量。第一项是识别的准确率，比如一共说 1 万次唤醒词，能成功识别出多少次。在实际用户数据下，这需要能达到 99% 左右。第二项是误唤醒率，在持续语音输入的环境下，24 小时内误唤醒的次数。这个指标跟具体播放的内容有关，但一般一天内要少于 2-3 次。

目前业内公司采取用特定的唤醒词来触发语音助手的方案，比如苹果语音助手 Siri 的唤醒词为“Hey Siri”，小米的是“小爱同学”，阿里的是“天猫精灵”，百度的是“小度小度”，亚马逊 Alexa 的是“Alexa”、“Amazon”、“Computer”、“Echo”、“Ziggy”（是的这五个都是它的唤醒词）。

Computer是Alexa的唤醒词｜Giphy

唤醒词音节越多越复杂，唤醒成功率就会越高，误唤醒率就会越低。但是，在实际使用当中，更短的唤醒词更受用户的喜爱，特别在用户急于发出指令时。

像三星语音助手的唤醒词是“Hi Bixby”（大致发音为：嗨碧克斯碧），由 5 个音节构成，但是大量的用户在使用中会减少一个音节，发音为“嗨碧克斯”或者“嗨碧斯碧”。

2018 年，微软就将旗下语音助手 Cortana 的唤醒词由“Hey Cortana”改为“Cortana”，现在轮到 Siri。“Hey Siri”由三个音节构成，“Siri”由两个音节构成。虽然只是少一个音节，但也是语音助手升级的必经之路。

那之前“Hey”这么一下为了啥？

可是越短的唤醒词，越容易跟其他词混淆，与“Siri”具有类似发音的词汇很多，比如 Syria（英文：叙利亚）、Sirie（英文：人名），Sire（英文：陛下），容易产生误唤醒。为了提升唤醒的准确性，音节最好丰富一点。

其实哪怕是丰富些的“Hey Siri”，也有很多用户抱怨在说“History”（英文：历史）时，会误唤醒出 Siri。

此外在噪音较大，或者手机离说话人较远的情况下，“Siri”的第一个音素，即发音类似于“斯”的部分（见图 1 绿框），声音频率较高——频率高的声音衰减快，容易与环境噪音混淆。这意味着在用户开车，听广播，看电视或者远距离呼叫 Siri 时，Siri 可能更难唤醒。

Hey Siri 音频及其频谱图｜作者提供

而“Hey”是包含一个较大能量的低频发音，可以将比较短而且能量小的其他音素（主要指 Si 和 Ri 这两个）与噪音区分开来。

你是省事了，Siri 可费了劲

关于发音相近的词导致的误唤醒问题。一种方案是使用对比学习（contrastive leaning）等方法，刻意消除易混淆词语的误唤醒。其原理类似于，单独拎出来“History”和“Syrian”等音频，告诉唤醒模型，这些发音是错的！

但这种方法必须在事前由人来找出容易混淆的单词，有一定局限。

另外一种解决误唤醒的方案是通过语音识别以及语义信息的分析，综合判断用户的发音是否意图在唤醒手机语音助手。例如“Hey Siri”发音虽然与“History”相近，但是用户在说出“Hey Siri”之后的内容，大概率与说出“History”之后的内容有很大差异。

通过核对唤醒词之后的语音，可以让语音助手在一些聊天场景中“保持冷静”，比如当你和朋友聊天刚好提到 Siri，但并不是为了唤醒它时。

你可以试下唤醒一屋子的语音助手｜Giphy

使用声纹识别技术也可以提高唤醒的准确性。类似于指纹识别通过每个人的指纹区分用户，声纹识别也可以通过用户发音特征的不同，实现对用户的区分，让语音助手只对机主的声音作出反馈，并忽略掉其他人的语音指令。

在开启 Siri 的时候，需要说五段话，就是在完成声纹识别注册这一步。

此外，对开发者而言，去掉“Hey”，还要死掉不少脑细胞。比如有的用户在闲暇时会说“Good morning Siri”，或是在使用完语音助手之后说“Goodbye Siri”；有时用户唤醒语音助手好几次没成功时，还会说“Come on siri”，这种时候要不要唤醒？

从产品经理的角度考虑，最优方案当然是听懂用户的所有意图，比如“Goodbye Siri”意味着不需要唤醒，而“Good morning Siri”意味着用户想要沟通。但由于语音唤醒模型比较简单，功能没那么强，一直运行也比较耗电，所以大部分产品会选择一刀切——要么都唤醒，要么都不唤醒，但这又破坏了用户体验。

根据目前放出的 iOS17 开发者版本来看，苹果暂时不支持“Good morning Siri”，“Come on Siri”等情况下的唤醒。

ChatGPT 会取代语音助手么？

微软 CEO 萨蒂亚·纳德拉曾直言不讳语音助手的“愚蠢”：“无论是 Cortana、Alexa、Google Assistant 还是 Siri，这些语音助手笨得像块石头。”

与最新最热的生成式聊天 AI 相比，语音助手似乎是上个时代的产物，它们只能回答简单直接的指令，从数据库选一些已有的东西来语音播报，还常常出错；而 GPT 们可以生成小说，讲一个世界上曾经没有的笑话，应付人类各种的语焉不详，跟你谈笑风生。

甚至成为你的朋友｜Giphy

实际上，语音助手使用的也是深度学习模型，只是数据量和计算需求没有 ChatGPT 这类大语言模型大。短期来看，大语音模型可以替代语音助手工作模块中语义理解的功能。对语义理解模块之前的语音唤醒和语音识别影响有限。但是更好的语义理解，也能在一定程度上修复前面两个模块带来的错误。

目前亚马逊已表示要用大语言模型给旗下语音助手 Alexa 做升级，阿里也宣布未来所有产品都将接入“通义千问”大模型，其中也包括天猫精灵。

可能在一段时间之后，手机中的语音助手还可以借助 ChatGPT 综合分析用户的历史信息，并结合用户所处的场景，更准确地了解用户的意图，那样就可以做到无需唤醒词的人机自然对话了。

作者：魏浩然

编辑：睿悦