揭秘百度声纹解锁技术 让君子动口不动手
2012年12月,搭载百度云智能操作系统的联想A586手机上市,其也是全球首款具有声纹解锁功能的智能手机。《大话西游》中的“芝麻开门”成为现实——手机能够智能辨识主人的声音进行解锁,一根手指头都不用动。如此炫酷的语音智能控制功能,技术上是如何实现的?百度工程师将为我们揭秘。
声纹,每个人的声音身份证
什么是“声纹”(Voiceprint)?借用“指纹”去理解也许容易些,反正是每个人独一无二的。
我们都有这样的直观感受,每个人说话,语声都不一样。因为人的发声器官,包括声带、软颚、舌头、牙齿、唇等,存在着大小、形态及功能上的差异。这些差异会导致发声气流的改变,造成音质、音色的差别。此外,人发声的习惯亦有快有慢,用力有大有小,也造成音强、音长的差别。音高、音强、音长、音色在语言学中被称为语音“四要素”,这些因素又可分解成九十余种特征。这些特征表现了不同声音的不同波长、频率、强度、节奏。而语图仪可以把声波的变化转换成电讯号的强度、波长、频率、节奏变化,仪器又把这些电讯号的变化绘制成波谱图形,就成了声纹图。
总体而言,声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。成年以后,人的声音可保持长期相对稳定不变。实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终相同。通俗来说,声纹就是人的声音的身份证。
百度声纹解锁技术原理:建立声纹VS声纹识别
实际上,百度声纹解锁的原理也牵涉到两个阶段的应用。第一是声纹注册,也就是通过用户的互动,建立一个语音的身份证;其二,就是声纹识别,通过既有的声纹模型与当前的用户语音对比,看看是不是手机真正的主人。
在声纹注册阶段,用户需要对着手机念一段文字或者数字,当然,为了排除用户情绪的失控(比如第一次玩声纹解锁的哥们、妹妹们),具备百度声纹解锁功能的手机会要求用户重复输入同样的语音三次,这有点类似于我们设定密码中的两次输入。
在声纹识别阶段,用户只需要输入注册时使用的语音,通过手机系统的验证,就能超酷炫的语音解锁登录了。这时,语音解锁是怎么工作的呢?它对当前用户的语音(姑且称之为这个家伙)进行处理,并对数据库中的模型(主人)进行匹配。结果其实就是两种:一,如果“这个家伙”=“主人”,放行;二,如果“这个家伙”≠“主人”,就给出提示要求他注册。
百度声纹解锁的绝招:噪音处置算法
大家一定想着,哇,超帅!开机不用手,动动嘴皮就行了。
不过,很多人就想到了,在这个人口爆棚的时代,充满噪声的环境无可避免,声纹解锁还能工作吗?
实际上,这正是百度声纹解锁技术的绝活所在——百度采用了先进的语音端点检测算法和信噪比估计算法,能够精确地判断用户输入的语音信息是否有效。
大家知道,即便在嘈杂的环境中,我们人类还是有一种超能力的——可以将噪音当做耳边风,将注意力集中在对方说话的声音上(尤其是面对辣妹或帅哥时)。但是手机相对伟大的人类来说,这种能力绝不是与生俱来的。当手机用户说话时,不管是人声还是背景噪音,手机没有办法挑肥拣瘦,只能照单全收。
所以百度的工程师在研发手机的声纹解锁功能时,给它赋予了两个超级的语音处理能力。第一个是使用语音端点检测算法,来探测到用户输入语音的起始和终止位置,也就是说,哪怕外面吵翻天,但用户可能一个字都没有说。这种算法可以精确探测到用户说话到底说了哪一段,因此分析起语音可以有的放矢。第二个是使用信噪比估计算法,来检测用户输入语音的质量是否满足需求。如果背景噪声太强,就会提示用户重新输入。比如您在汪峰的演唱会现场给手机下指令,这就有点太过了,“这么吵也叫手机我识别?你当我是你啊?”。
通过上述两种超级语音处理能力,百度声纹解码功能就能保障自己处于一个“能干活”的基础上了。
百度声纹解锁技术的未来:问答式登录
针对于众多手机玩家的酷炫需求,百度的工程师也在为百度声纹解锁技术研发新的特性。比如在未来,有可能实现问答式登录。
目前利用声纹解锁时,需要用户输入注册时使用的特定内容,这就是固定的口令.
但在未来,百度声纹解锁技术将允许用户有新的玩法。比如登录时系统会随机给出问题让用户回答,用户回答问题后就会对用户的声音进行识别。如果用户以前对系统输入过语音,就算不是刚才回答的内容,系统也能分辨出来。
想象一下未来的手机生活:
主人:手机,乖,给我解锁。
具备百度声纹解锁功能的手机(以下简称手机):主人,你妈贵姓?
主人:姓王啊,不是跟你说过了吗?烦不烦啊!
手机:什么态度啊?再出一道题,52乘以10等于多少?
主人:……
手机:520,答对了,声学特征100%匹配,确认为主人身份,通过。
百度声纹解锁,君子动口不动手,联想乐PhoneA586,君子之选。(RFID世界网编辑整理)