如今,人工智能迅速发展,智能语音助手是人工智能的重要应用领域。Siri是最早的智能语音助手,其语言能力在各类语音助手中位于前列。尽管语音处理技术发展迅速,语音助手仍有很大提升空间。本文在不高于45分贝的安静场景展开测试,从语音、词汇、语法、语用等角度评估语音助手Siri的语言能力。
一、语言理解能力评估
(一)语音
Siri对人正常的发音识别准确率较高,基本可以正确理解人说的内容。Siri对于人在说话过程中产生的语流音变,如同化、弱化、增音现象基本可以正确理解。对Siri说“难免”“喇叭”“快啊”几个词后,Siri都能转换成对应文字。Siri对于连续变调以及普通话中“一”(阴平)和“不”(去声)在去声音节前一律变为阳平这一现象可以理解。对Siri说“我想吃水饺”“一个”“不要”,Siri都可以正确识别说出的话。Siri无法理解强调重音对含义的影响,Siri对于“我想吃一个苹果”和“我想吃一个苹果”(加点表示重音)回答相同。表达说话人语气或情绪而与区别意义无关的发音长短不影响Siri对人说话含义的理解,换而言之,Siri无法感受并回应人在情绪上的变化。对“我明天要去北京”(快且兴奋)和“我明天要去北京”(慢且沮丧)的回答相同。Siri无法理解句调对含义的影响。对“我需要你的帮忙”(升调)和“我需要你的帮忙”(降调)回答相同。
(二)词汇
Siri基本词汇的词汇量巨大,新造词、古语词、方言词、外来词等一般词汇的词汇量则有限。对“奥利给”回答“谢谢你,我会加油的”;对“你是打工人吗”则无法回答。对“猫喜欢捉耗子吗”提供的内容是“猫为什么喜欢捉老鼠”;对“你是瘪三吗?”“你在耍什么把戏”则无法回答。此外,对于各种固定短语,Siri的掌握情况一般,通常调用搜索引擎进行检索。汉语中同音词较多,因此对同音词的判断是语言能力中极其重要的一部分。人类在沟通时通常可以借助语境正确判断同音词,而Siri目前尚无法做出准确率较高的判断。“我喜欢看bēijù”默认理解为“杯具”。但当语境充足时:“我看了一场悲剧”“我买了一套杯具”,Siri则能做出判断。Siri有时会通过用文字呈现出同音词备选项的方式让用户对判断错的词进行修改。由此来看,在判断同音词方面,Siri能力上不如人类,但一定程度上和人类具有同样的思路——通过询问的方式确定同音词的具体情况。
(三)语法
Siri可以正确区分用户不同语序的句子分别表示什么含义。对“我想吃饭”和“饭我想吃”均回答“好的请过目”并罗列饭店;对“我吃了一个香蕉”回答“好的。谢谢你愿意与我分享你的日常”,对“一个香蕉吃了我”则回答“我没有听明白你的意思”。Siri可以对用户的不同句式做出正确回应。Siri听到“把通讯录为我打开”会打开通讯录。Siri能正确理解结构简单、意义简单的句子。Siri可以正确回应“给我讲个笑话。”Siri还能理解复杂结构单句和复谓结构单句。对“你认为我是好人吗”,回答“我还是不评论了”。此外,Siri也可以理解复句。对“因为我今天干了很多活所以我很累”,Siri虽不断句,但正确回复了“听我的,把ipad放下,先去睡一会儿吧,我会等着你”。Siri对用户言语文字化过程中不加标点,可见其不能准确区分用户说出的内容属于哪种语言单位。用户说出“我今天有点累,我想睡觉了”,Siri会处理成“我今天有点累我想睡觉了”。Siri不擅长处理语法原因产生的歧义。对“帮我定下周四的闹铃(现在周四凌晨)”,回复“我无法设置一天以后的闹钟”,自动将“下周四”划为整体,而不考虑“定下”为整体。
(四)语用
Siri在特定情况下可以理解由语言因素构成的上下文语境(在对话中表现为口语的前言后语)。Siri对“我明天下午四点要去上海出差”,回答“我想搞清楚……你是指十二月十日星期四还是十二月十一日星期五”,此时用户可以做出回应。如果不是由Siri针对用户言语进行提问,那么在用户与Siri一来一回的对话后,用户再说出的新的言语将被视作全新的对话,Siri在理解时不会将之前的对话纳入该新对话的语境中。Siri对“我爱喝奶茶”,回答“了解”后,又对“请为我推荐一种饮品”,回答有关酒吧、茶餐厅的推荐,换而言之,Siri目前尚不具备多轮对话的能力。在特定情况下,Siri理解用户言语会考虑情景语境,虽然Siri对场合、话题、以及用户几乎没有了解,但对时间十分关注。凌晨时对“帮我订一个明天早上七点的闹钟(周四)”,回答“闹钟已经设置到上午七点(周四)”,而不是在周五设置闹钟。此外,根据测试来看,Siri几乎不考虑文化语境与心理语境。Siri可以理解较为基础的、有标志的间接言语行为。对“你介意给我讲个笑话吗”,回答了一个笑话。但对于没有提示标志的就较为困难,其无法理解“我最近有点缺钱”暗示了我想借钱。综上,Siri在语言理解上只能处理最基本的情况,还不能应对口语中各式各样的复杂情况,与人类语言理解能力差距较大。
二、语言生产能力评估
(一)语音
Siri的发音较人类更加标准,不会造成理解困难。此外,Siri的发音具有许多人类的特征。Siri说话时会产生语流音变。Siri可以正确把握弱化现象,在引导Siri说出“喇叭”一词后,Siri会自动对“叭”字做轻声处理。在连续变调以及普通话中“一”(阴平)和“不”(去声)在去声音节前一律变为阳平这一现象上,Siri与人类相同。例如“肯爱千金轻一笑”中的“一”是阳平。Siri说话时会有节律重音。对“你有喜欢的人吗”,回答“我对地球上这些错综复杂的人际关系不是特别感兴趣”。Siri说话基本没有强调重音。Siri说话时会受到语气或情绪的影响。对“快点”,回答“你看这么快可以吗?我看我还是慢点的好”时,前一句速度快,后一句速度慢。Siri说话时有句调变化。对“快点”,回答“你看这么快可以吗?我看我还是慢点的好”,前一句是升调,后一句是降调。Siri说话时,停顿较为自然。Siri目前支持普通话和粤语两种中文语音输出形式。
(二)词汇
Siri掌握的词汇量足够支持Siri表达出想表达的含义,且Siri会使用一定的固定短语。
(三)语法
Siri输出的内容以句子为主,基本没有出现字、词、短语、句组(不考虑例如“请为我朗诵一篇文章”之类的特殊要求)。Siri说出的句子在虚词使用、语类选择、语序安排、句式和语调使用上几乎不会出现错误。综上,Siri在语言生产上已较为完善,基本不会影响正常交流,也具有了一定的人类特征。
三、总结
Siri虽是较优秀的语音助手,能够应对简单对话,但与人类语言能力仍有较大差距。人类直接处理语音信息,而Siri处理语音转化为文字后对应的信息,故Siri对于文字形式相同而语音不同的词的处理应更谨慎,应关注弱化、强调重音、与区别意义无关的发音长短、句调、语法原因造成的歧义等问题。词汇变化速度较快,Siri应不断更新词库。Siri在语音识别与词汇量上都应更加关注方言问题。此外,目前Siri只会被动回答,不会主动提问或开启话题,这种对话模式不同于人类。Siri不具备学习能力,无法在与人的对话中不断学习新的信息,无法进行多轮对话。如果想使语音助手具备人格化特征则需要完善这两点。Siri在评估中反映出来的不足是市场上多数语音助手共有的,如今市场上的语音助手均可据此进一步提高语言能力。
参考文献
耿立波、刘涛、俞士汶、孙茂松、杨亦鸣2014《当代机器语言能力的研究现状与展望》,《语言科学》第1期。
李四维、程贵锋、何双旺、张笛2019《语音助手能力评估研究及趋势分析》,《广东通信技术》第12期。
《语言学视域下语音助手Siri语言能力评估》来源:《汉字文化》,作者:杨智惠