RFID世界网 > 新闻中心 > 物联网新闻 > 正文

出门问问李志飞：语音识别的AI将直接给你买票

作者：本站采编

来源：新浪科技

日期：2016-04-15 09:08:49

摘要：李志飞创办的出门问问公司，是一家拥有自主语音识别、语义分析、垂直搜索技术的创业公司。2015年，出门问问成为Google Android Wear语音搜索战略伙伴，并收到了来自Google的C轮融资。

关键词：AI语音识别

　　从谷歌回国创业，再到被谷歌投资，出门问问创始人李志飞成功的完成了转身。

　　李志飞创办的出门问问公司，是一家拥有自主语音识别、语义分析、垂直搜索技术的创业公司。2015年，出门问问成为Google Android Wear语音搜索战略伙伴，并收到了来自Google的C轮融资。

　　在回国前，李志飞是美国约翰霍普金斯大学计算机博士及自然语言处理专家，曾任 Google 美国总部科学家，从事机器翻译的研究和开发工作。

　　作为一个研究超过10年的人工智能专家和新晋创业者，李志飞在今年1月的一次演讲中谈到了人工智能的历程和未来应用设想。他认为，人工智能在未来有两个特别大的趋势。第一个是从软件到硬件，最终走向软硬结合。在未来，可能是三年五年或者十年，可穿戴设备、VR设备、无人驾驶汽车、智能家居产品等，将会与图像识别、语音识别等人工智能技术结合起来，满足人的需求，在一定程度上解放人类。

　　与此同时，人工智能将从单纯提供信息到直接提供服务。以前，人工智能系统所做的事情更多是提供信息，比如以前很多人会对Siri一类的语音助手说，“附近有什么咖啡馆?”，“查一下明天飞上海的航班”，现在，人工智能系统要做的事情是提供服务，比如“给我送一杯咖啡”、“帮我订一张明天飞上海的航班”。

　　李志飞：人工智能离消费级产品有多远

　　近些年，伴随着黑科技的不断涌现和资本市场的青睐，以及科幻电影对人工智能的渲，“人工智能”这个名词越来越高频的出现在大众眼前，人们对人工智能的认识也从简单的机器人深入到“深度学习“、“知识图谱”等高深的词汇。

　　人工智能，似乎无所不能，但在目前的生活中，我们也很少看到人工智能“能“做什么。梳理人工智能的历史，从应用的角度，人工智能发展到现在，经历和即将经历的，一共有三个阶段：AI1.0-3.0。

　　“人工智能”这个概念可以追溯到计算机的发明或者图灵很早期的文章，而真正的“人工智能”即“AI”这个名词出现在1950年。美国达特茅斯学校的一群教授在开会的时候创建了“人工智能”这个概念，希望某天机器可以模拟人的行为，帮助人类做很多事情。

　　什么叫做真正的 AI?环顾四周，各种各样的人都在谈论AI：工程师、科学家、政府、媒体、记者，还有未来学家和科幻学家……，也涌现了无数的名词，比如无人驾驶、Glass、LSTM、Siri等，非常容易让人觉得困惑。

　　那么到底什么是人工智能，为什么这些词汇出现在不同人的口中?

　　这些不同的词汇代表了几个层面的可能：第一个层面，创业者、媒体、政府等人工智能行业之外的人，说到“人工智能”讲的都是产品，比如Glass、Siri等，这类是从外面来看人工智能给我们提供什么样的产品、提供什么样的服务;第二个层面，是我这样技术出身的创业者和出门问问这样真正以人工智能为核心的公司，我们会谈到具体的技术，因为无论是无人驾驶、机器人还是可穿戴设备，最后都需要技术的支撑，比如语音识别、自然语言处理、计算机视觉，这都是技术本身。第三个层面，是工程师或者科学家，他们每天写代码或者思考的是怎么把这个事情做出来，他们可能讨论的是模型和算法，比如神经网络、深度学习、搜索空间的优化，还有一些LSTM、CTC等这些绝大部分非科学家以外的人都不会接触的。所以大家都在讲人工智能，但每个世界的每个人看到的东西不一样，但最关键的是一定要是这些工程师、科学家把每一步好好做出来，提供一个技术以后才能提供一个产品，最后把产品推向普通用户，所以这是非常庞大的体系。

　　从应用的角度，把人工智能按照最近的70年时间进行梳理，根据时间点，我把它分为三个阶段：1945-2005年是AI1.0时代，2006-2015年归为AI2.0时代，从2016年开始到未来的5-10年，是AI3.0的形态。

　　AI1.0即1945-2005年这个时间，是把基础理论、基础学科建立起来的时间，很多算法的建立，是计算机科学家或者统计学家天天在试验室、天天跟博士生讨论思考，跟学术界人交流，慢慢梳理出来的，在这段时间，学术界慢慢建立了AI里非常具体的学科，比如语音识别、机器翻译、自然语言处理、视觉。

　　在这个过程中，渐渐的形成了很多人工智能从业的方法论及学派，比如说，科学家们想造一个机器能够模拟人的行为，就会把计算机的行为向人类学习，这就形成了仿生派，他们尽力理解人是怎么学习这个语言的，人是怎么理解这个语言的，人是大概什么工作过程，然后用计算机模拟这个过程;计算机学家则会从计算机本身出发，是为逻辑派，逻辑派对计算机很了解，根据原理看到底怎么实现人工智能的服务。前面两派都是比较基于某一些原则，比如人类是怎么工作的或者计算机怎么工作的，还有另外一派可能不那么学究，他们直接就把数据放进去，比如语音识别只要有一个模型最后能够识别字，但他其实不关心这个语音识别的过程跟人类语言识别的过程是不是一样的，可以称他们为行动派或者实干派。

　　在1956年开始到现在，人工智能几起几落，在最初人类定义人工智能概念的时候，那些最伟大的科学家都非常乐观，认为在未来几年就可以造出一台机器跟人一样，可以代替人的很多活动和很多事情。但是摸索五六年，科学家们发现机器可能连最简单的语音识别，比如识别数字都识别不了，这时候就会有一些悲观的情绪。比如很多高科技都是美国军方高级研究院支持的，但是后来发现做了几年，军方发现连识别几个简单的号码都识别不了，所以他们把这个研究停掉了。

　　但是人工智能的研究始终是计算机和科学家的梦想，所以很多人即使在资金缺乏的情况下也会不停地做研究，可就会有一些新应用的发现，在这个螺旋式反复的过程中，各种学派、各种基础模型和算法都逐渐构建了起来，人工智能总体还是在发展中。

　　AI1.0时代，工业界也有一些形象工程，比如深蓝战胜国际象棋世界冠军，但是这些系统没有得到大规模的应用，直到2006年，在AI2.0的开端，谷歌翻译正式上线成为互联网的产品，这成为了一个非常有象征意味的标志性时间，从那天开始，谷歌通过不停的迭代，提供了90种的语言翻译，也就是 8100个语言对。历史上从来没有一个系统有这么多，这么庞大的语言对，谷歌翻译每天同时有2亿人在使用，每天有10亿个翻译的句子输到Google的这个网站上去，然后机器自动把它翻译出来。在人类历史上，或者在AI发展历史上，谷歌翻译是第一个大规模被全世界人群大规模使用，而且频率非常高的一个系统，所以2006年是开启了人工智能技术面向消费者的具有纪念性意义的一年。

　　为什么人工智能在前面几十年都没有得到发展，而2006年谷歌就突然推出谷歌翻译系统而且得到大规模的普及?原因可能有两点：第一，谷歌是一个互联网公司，它做的所有产品都是为了满足用户的需求，而谷歌面对的用户是全球的，对这种信息全球的需求汇总起来非常大，谷歌翻译这个网站才有很大的用户需求量;第二，谷歌采用了非常合理的架构，就是数据、算法和基础设施。我们以前在学校里面做研究的时候，数据非常少，比如一个中文到英文翻译的系统基于1万个句子对去训练就很不得了，但是与学术研究不同，谷歌有100万、200万或者1000万个句子对，他们可以去网上抓，比如圣经有中文版、英文版、法文版，可以把这个抓下来当作机器训练的语料。另外，谷歌有大规模云计算的结构，有几千台几万台机器在做计算，谷歌的基础设施足以处理这么大的数据量，并且谷歌的算法也有了很多进展。

　　另一个进展是，在最近2、3年内，人工智能的深度学习得到重新应用，而且跟大数据结合起来，使得我们在语音识别和机器翻译得到突破，诞生了各种移动端产品。

　　AI1.0到AI 2.0的发展，是从学术界到谷歌这样的公司主导，从以前的军用到民用，产品从To B到大规模的一定是To C的过程。

　　随之而来的，也是一些人工智能“大跃进”一般的说法：“奇点到来，机器超越人类智能”、“人工智能三岁啦”、“机器可能代替甚至毁灭人类”等，但目前的人工智能远没有你想象的那么聪明，甚至“笨”。人们平时习以为常的问题，机器却往往无法区分。这是因为目前的人工智能还是基于逻辑与数据、没有直觉，情感的理解力和创造力更是无从谈起。

　　那么，下一步，AI 3.0到底是什么?

　　从一个工程师或者比较现实的创业者去看， AI3.0可能会有两个特别大的趋势，第一个是从软件到硬件，最终走向软硬结合;第二个是从信息到服务。

　　AI的第一个趋势，产品从软件到硬件，最终走向软硬结合。过去早期人工智能硬件载体主要是PC，2010年移动发展起来了，智能手机被广泛普及。在未来，会有各种各样的新的硬件进来，当然这个时间不一定是近期，可能是三年五年或者十年，但是这个趋势是不可抵挡的，比如可穿戴设备、VR设备、无人驾驶汽车、智能家居产品，产品也会更加综合，软件和硬件的结合会更加紧密，这些硬件产品的共同特性首先一定是可移动性，可随身携带的，但针对不同的硬件，会有不同的应用场景，比如可穿戴设备可以天天戴在手上或者穿在鞋上，比如机器人或者无人驾驶汽车，机器可以自己移动，可以自己探索这个世界，那么他们所涉及到的需要搭载的软件也是不同的，需要有不同的设计考虑，会涉及到不同的应用场景。

　　因为设备的不同，未来AI技术发展的方向也会有很大的变化，首先，是从单一到综合，现在的语音识别技术根据声音去识别，大家可以想象我戴着个头盔说“不要”，但在未来，用户也可以有一些动作的反应，机器会同时通过视觉、声音等识别得更加精准。其次，它提供的服务是多维度的，过去的Siri是软件服务，现在从技术集成到硬件载体，产品和服务都会是综合性的。而且以前更多是人跟机器或者跟物理世界沟通，现在因为有机器人、VR、无人驾驶这样的产品，机器对物理世界的建模变得更为重要，比如机器人知道这边是不是有桌子，这边是不是有个小孩，这个颜色是什么样子的，如果有坡的话这个坡度是多高。过去我们的To C产品比如Siri是虚拟产品，但现在因为机器人和VR的出现，机器需要对物理世界进行建模，去跟物理世界进行交互，机械帮助人类增长能力，将成为大的趋势。

　　AI的第二个趋势将会从信息到服务。让它直接帮你完成这些任务，而不是找到这个信息。

　　以前，人工智能系统所做的事情更多是提供信息，比如以前很多人会对Siri一类的语音助手说，“附近有什么咖啡馆?”，“查一下明天飞上海的航班”，现在，人工智能系统要做的事情是提供服务，比如“给我送一杯咖啡”、“帮我订一张明天飞上海的航班”。

　　这种变革是飞跃式的，但同时也是困难的。解决了明确用户需求，获取相关信息之后，到服务的执行面临诸多复杂的问题，比如“订单如何支付?如何快速相应用户的复杂问题?如何控制服务成本?这些复杂情景对人工智能提出了极大的挑战。

　　以往，秘书、客服系统等人工服务虽然能处理复杂情况，但无法满足24小时响应且快速的响应;各种机器代表的人工智能服务虽然能24小时快速响应，但还没用聪明到解决复杂的事情。AI3.0的实现方式将越来越智能化，机器服务与人工服务的融合与迭代使得人工参与其中，人将成为机器的修正师和训练师，人的作用会越来越少。

　　从当前看，AI3.0“人工智能+人工服务”的实现形式是人工智能落地于人们生活的一个极大趋势，在人工智能系统尚不能真正的“聪明”的情况下，人工智能个人助理是一种非常聪明和现实的实现方法。在未来，除了智能手机，智能手表、车载设备、机器人、智能家居等智能生活的方方面面，基于语音识别的个人助理将能提供真正快捷、优质、准确的体验。