语音识别不好用?因为它还是个孩子啊!
口音对语音系统来说是个难题
这年头,什么都系不带上智能元素,似乎都卖不出去了,就算再高端的家居互联系统,如果不带语音控制,照样像段子里如来嘲笑玉皇大帝那样被嫌弃。语音识别、语音控制对我们大家来说都不算新鲜的东西,但这一功能现在更多的功能还是为了提升产品的逼格,而真正得到使用的少之又少。究其原因,还是不好用。
语音识别功能被广泛普及 但使用者少之又少
智能生活、智能人机交互的理念在很早之前就被提出,甚至在不少影视作品中都出现了能够直接通过语音控制的设备、系统,尤其无论使用者在多么嘈杂的环境中,语音识别系统都能快速、准确的识别使用者的语音。
电影中的人工智能无论是对话还是讲笑话无所不能
那么,我们现在的语音识别技术发展到了什么程度?现在确实有非常多的智能设备都使用了语音操控的功能,但是无论是苹果的Siri还是亚马逊的Alexa,亦或是各家厂商推出的智能设备,在宣传自己产品时都宣称自己的语音识别系统识别率多高,内置了多少种语言,但在用户使用时,会非常普遍的出现无法识别的问题。并且这一问题出现的范围非常广泛,不仅仅只发生在小厂家身上,前段时间一个美国用户向亚马逊投诉Alexa系统,原因是Alexa无法识别她母亲稍带口音的英文。
“罪魁祸首”Alexa
为了验证这个问题,笔者在办公室里请同事们用方言、外语无限轰炸笔者的苹果Siri,发现在设定普通话后,Siri完全无法识别各种方言,无论是闽南语、四川话、粤语甚至连与普通话非常相近的北京话也无法有效识别,就更不要提其他语种的语言了。
那么,为什么本应该非常好用的语音识别系统变得这么弱?最主要的原因就是,方言和口音太多了,我们先不说外语语系里都有多少种方言,就说中国就有多少种方言?如果是与普通话比较相近的方言还好,真遇上如闽南语、绍兴话、马鞍山话之类比较难懂的方言,什么样的语音识别系统都没办法。
从“倒鸭子”上就能看出口音对语音识别系统的影响
即使语音识别系统想收录这些方言也不是一件简单的事儿,毕竟方言种类真的很多,光是大的语言分类就有官话、晋语、湘语、赣语、吴语、闽语、粤语、客语八种,每种大类方言下面又有多种区域性的方言,还有一些因为族群迁移与地方方言结合的变种方言,单从数量上来讲,收录这些语言就是一项非常庞大的工作。但如果硬性要求所有的用户都说普通话,也是比较不现实的,首先中国普通话多少年了?在北京的街头上依然能听到各种各样的方言。另外,学习普通话,对于年轻人来说可能不是什么太大的问题,对于年龄稍大一点的用户来说,重新学习一种新的语言完全不现实。
陷入两难境地的语音系统
从用户使用的角度来说,现有的语音识别系统存在较大的矛盾,年轻人能够比较快的接受新生事物,对新出现的智能产品、系统能够以较快的速度接受,语音识别系统对他们来说只是一种让操作更加快捷或更加节省时间的操作模式。而年龄较大的用户,他们并不能较快的接受新的智能产品,在操作时会遇到各种各样的问题(各位想想,父母有没有在我们回家的时候举着手机说有什么功能不会用了,让我们教他们用),他们会更加希望依赖操作和理解起来都比较简单的语音操作。但是上边我们也说过了,这些年龄较大的用户在学习普通话这件事上同样困难重重,所以本应非常好用的语音系统对于他们来说同样不好用。
事实上 真正需要语音识别系统的是年龄较大的用户
如果单独是因为口音问题,现在这么多在研究语音识别系统的公司,如果合作起来,只要资源共享,这应该不是个问题。那么,制约语音识别发展的最主要原因来了,各家公司语音识别系统的源数据并不共享。语音识别中最重要的就是对语音的采集和分析,这是项工作量非常庞大的内容,如果想要构建支持不同口音的语音识别系统,这一工作量还将呈几何倍数骤增。所以,即使是对于苹果或亚马逊这样的超大型公司来说,也不可能支持无限语种的采集和分析。因此,各家研究语音识别系统的公司对源数据的保密控制堪称苛刻,想弄到其他公司的语音源数据也是根本不可能的。
语音采集是一项非常繁复的工作
除去口音问题和源数据不共享的问题,语音识别系统的分析能力和云计算能力也是严重制约语音发展的重要因素。当用户在使用语音系统时,设备端收集到语音,需要通过识别系统的云计算能力进行运算和分析。云计算能力和支持云计算的硬件、传输网络都不是一个非常好解决的问题,需要较长时间的积累不断完善优化。
很多人都觉得现在使用的语音识别系统并不好用,完全达不到我们想象中那种能够仅凭借语音就能实现所有操作,或者能够帮我们节约大量时间的程度。更多时候,我们会感觉面对的不适一个智能的语音识别系统,而是家中听不懂我们在说什么的宠物或者小孩子,需要我们放慢语气、用最标准的普通话、一遍一遍的和他们慢慢说。不过别着急,现在的语音识别系统还真就是个孩子,它正在以非常快的速度进步着,相信不久以后,真正好用的语音识别系统就会出现在我们身边。