“Hey Siri”要成为历史了。
今年 6 月,iOS 17 发布开发者版本,其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。
(资料图片仅供参考)
但就是这么一个简单的变化,却愁坏一大堆程序员。从去年年末消息放出到现在将近半年,iOS 依然没有正式更新该功能。拿走一个“Hey”,对语音助手来说有多难?
为什么不要“Hey”了?
对着智能音箱或语音助手喊“Hey Siri”和“小爱同学”,这都叫做“唤醒词”,目的是让智能音箱知道你要开始对它说话下达指令了——这就像过年回家,你奶喊你:嘿,狗剩~赶紧把院里的鸡喂了去!
如下图所示,语音助手的工作分为四个模块,像人一样,它也需要先听到语音、理解语音、才能做出反应并通过语音反馈给用户。
语音助手的工作模块|作者提供
其中“唤醒质量”是衡量语音助手好坏的重要指标,业内一般通过两个标准来衡量。第一项是识别的准确率,比如一共说 1 万次唤醒词,能成功识别出多少次。在实际用户数据下,这需要能达到 99% 左右。第二项是误唤醒率,在持续语音输入的环境下,24 小时内误唤醒的次数。这个指标跟具体播放的内容有关,但一般一天内要少于 2-3 次。
目前业内公司采取用特定的唤醒词来触发语音助手的方案,比如苹果语音助手 Siri 的唤醒词为“Hey Siri”,小米的是“小爱同学”,阿里的是“天猫精灵”,百度的是“小度小度”,亚马逊 Alexa 的是“Alexa”、“Amazon”、“Computer”、“Echo”、“Ziggy”(是的这五个都是它的唤醒词)。
Computer是Alexa的唤醒词|Giphy
唤醒词音节越多越复杂,唤醒成功率就会越高,误唤醒率就会越低。但是,在实际使用当中,更短的唤醒词更受用户的喜爱,特别在用户急于发出指令时。
像三星语音助手的唤醒词是“Hi Bixby”(大致发音为:嗨 碧克斯碧),由 5 个音节构成,但是大量的用户在使用中会减少一个音节,发音为“嗨 碧克斯”或者“嗨 碧斯碧”。
2018 年,微软就将旗下语音助手 Cortana 的唤醒词由“Hey Cortana”改为“Cortana”,现在轮到 Siri。“Hey Siri”由三个音节构成,“Siri”由两个音节构成。虽然只是少一个音节,但也是语音助手升级的必经之路。
那之前“Hey”这么一下为了啥?
可是越短的唤醒词,越容易跟其他词混淆,与“Siri”具有类似发音的词汇很多,比如 Syria(英文:叙利亚)、Sirie(英文:人名),Sire(英文:陛下),容易产生误唤醒。为了提升唤醒的准确性,音节最好丰富一点。
其实哪怕是丰富些的“Hey Siri”,也有很多用户抱怨在说“History”(英文:历史)时,会误唤醒出 Siri。
此外在噪音较大,或者手机离说话人较远的情况下,“Siri”的第一个音素,即发音类似于“斯”的部分(见图 1 绿框),声音频率较高——频率高的声音衰减快,容易与环境噪音混淆。这意味着在用户开车,听广播,看电视或者远距离呼叫 Siri 时,Siri 可能更难唤醒。
Hey Siri 音频及其频谱图|作者提供
而“Hey”是包含一个较大能量的低频发音,可以将比较短而且能量小的其他音素(主要指 Si 和 Ri 这两个)与噪音区分开来。
你是省事了,Siri 可费了劲
关于发音相近的词导致的误唤醒问题。一种方案是使用对比学习(contrastive leaning)等方法,刻意消除易混淆词语的误唤醒。其原理类似于,单独拎出来“History”和“Syrian”等音频,告诉唤醒模型,这些发音是错的!
但这种方法必须在事前由人来找出容易混淆的单词,有一定局限。
另外一种解决误唤醒的方案是通过语音识别以及语义信息的分析,综合判断用户的发音是否意图在唤醒手机语音助手。例如“Hey Siri”发音虽然与“History”相近,但是用户在说出“Hey Siri”之后的内容,大概率与说出“History”之后的内容有很大差异。
通过核对唤醒词之后的语音,可以让语音助手在一些聊天场景中“保持冷静”,比如当你和朋友聊天刚好提到 Siri,但并不是为了唤醒它时。
你可以试下唤醒一屋子的语音助手|Giphy
使用声纹识别技术也可以提高唤醒的准确性。类似于指纹识别通过每个人的指纹区分用户,声纹识别也可以通过用户发音特征的不同,实现对用户的区分,让语音助手只对机主的声音作出反馈,并忽略掉其他人的语音指令。
在开启 Siri 的时候,需要说五段话,就是在完成声纹识别注册这一步。
此外,对开发者而言,去掉“Hey”,还要死掉不少脑细胞。比如有的用户在闲暇时会说“Good morning Siri”,或是在使用完语音助手之后说“Goodbye Siri”;有时用户唤醒语音助手好几次没成功时,还会说“Come on siri”,这种时候要不要唤醒?
从产品经理的角度考虑,最优方案当然是听懂用户的所有意图,比如“Goodbye Siri”意味着不需要唤醒,而“Good morning Siri”意味着用户想要沟通。但由于语音唤醒模型比较简单,功能没那么强,一直运行也比较耗电,所以大部分产品会选择一刀切——要么都唤醒,要么都不唤醒,但这又破坏了用户体验。
根据目前放出的 iOS17 开发者版本来看,苹果暂时不支持“Good morning Siri”,“Come on Siri”等情况下的唤醒。
ChatGPT 会取代语音助手么?
微软 CEO 萨蒂亚·纳德拉曾直言不讳语音助手的“愚蠢”:“无论是 Cortana、Alexa、Google Assistant 还是 Siri,这些语音助手笨得像块石头。”
与最新最热的生成式聊天 AI 相比,语音助手似乎是上个时代的产物,它们只能回答简单直接的指令,从数据库选一些已有的东西来语音播报,还常常出错;而 GPT 们可以生成小说,讲一个世界上曾经没有的笑话,应付人类各种的语焉不详,跟你谈笑风生。
甚至成为你的朋友|Giphy
实际上,语音助手使用的也是深度学习模型,只是数据量和计算需求没有 ChatGPT 这类大语言模型大。短期来看,大语音模型可以替代语音助手工作模块中语义理解的功能。对语义理解模块之前的语音唤醒和语音识别影响有限。但是更好的语义理解,也能在一定程度上修复前面两个模块带来的错误。
目前亚马逊已表示要用大语言模型给旗下语音助手 Alexa 做升级,阿里也宣布未来所有产品都将接入“通义千问”大模型,其中也包括天猫精灵。
可能在一段时间之后,手机中的语音助手还可以借助 ChatGPT 综合分析用户的历史信息,并结合用户所处的场景,更准确地了解用户的意图,那样就可以做到无需唤醒词的人机自然对话了。
作者:魏浩然
编辑:睿悦