【访谈】人工智能风口，为何知名IT厂商都如此重视语音识别技术?-人工智能风口

　　与机器进行语音交流，并让其“听懂”人语，这项科幻世界才发生的事儿正在变成现实。

　　【51CTO记者李玲玲北京报道】2016年6月初，媒体素有“互联网女王”之称的凯鹏华盈合伙人玛丽·米克尔(Mary Meeker)在其发布的2016年《互联网趋势报告》中指出，语音是最有效的计算机输入形式，将会成为人机交互的新范式。

　　抛开苹果siri、微软Cortana一类语音助手不说，从京东与科大讯飞合作的叮咚，亚马逊的明星产品Echo，到谷歌Master和百度度秘……语音识别俨然已成为人工智能的重要入口，而以语音识别技术为核心的产业链也日渐形成。

　　“语音识别技术(ASR)其实就是将我们人的声音转换成计算机可读的文字，并加入语义理解(NLP)。目的是要了解我们到底想表达什么问题，想做什么事情。它在整个AI里只占很小的一部分。”刚去职某知名网站研发经理一职的小威(化名)谈起自己钻研的语音识别技术兴奋不已。

　　其实语音识别技术本身并不新鲜。早在1952年，美国贝尔实验室的Davis等研制出了世界上第一个能识别10个英文数字发音的实验系统。自此人类对语音识别的研究一发不可收拾。2011年深度学习技术的引入，直接将语音识别效果提升到了一个新的高度。尤其近年来，智能语音识别相关技术在人工智能、智能硬件、可穿戴设备、无人驾驶等领域，甚至更多垂直行业的深入运用，让人类真正解决双手、双眼不再是遥不可及的事情。

　　智能音箱怎么就火了?

　　“现在这个领域里智能音箱比较火，以BAT为首的各家企业都在做相关产品研究。”持续研究智能音箱及电视场景的小威向记者道出了这里的一些门道，“别看它只是个小小的音箱，其实这个硬件产品里富含了很多重要的技术。”

　　他解释说，比如音箱处于一个嘈杂的环境里，人什么时候要说，说什么东西，它都要进行一个截取。首先是有一个唤醒词，这个设备对唤醒词进行识别后，才会对人接下来要说的话进行处理。

　　过去，我们比较熟悉的手机语音助手应用被称为“近讲”，即我们拿着手机，嘴巴靠近手机麦克风近距离讲话的方式，典型应用如苹果Siri。而现在“远讲”更多是在研究怎样解放人的双手，达到跟正常人一样可以进行很自然的交流，让机器能够明白人想说什么，想要做什么。

[[201286]]

　　小威告诉记者，一个看上去简单的人机语音交互过程，就涉及到很多语音处理技术。比如怎么能将人说的话有效收录进去?首先声音通过麦克风或麦克风阵列来被收音，声音信号被数字化后送入系统声学前端模块，完成回声消除、降噪、人声定位等环节，然后将干净的信号提交到语音识别系统中，实现语音到文字的“转换”。之后将文字送入自然语言处理模块，让手机听懂“人话”。

　　说到智能音箱，小威说，“比如我们问‘现在几点了?’它就知道我想问的是现在的时间，它会转换成一个指令，访问云端服务器获取当前时间，然后将结果反馈回来。中间过程涉及语音识别(语音转文字)、语义理解（获取用户意图）、TTS播报（将结果通过声音播放的形式反馈给用户）。可以说智能音箱应用是语音交互应用中最简单、最易理解的一个闭环操作。”

　　“音箱之所以突然在国内火起来，也是因为亚马逊echo的成功给市场带来了很多潜在的商业价值，比如用echo去获取很多高频的用户需求，如音乐、有声读物、家居控制等，以及一些新型的应用，如语音购物、语音叫Uber等等。”小威表示。

　　语音识别技术产业链初具雏形

　　当人们看到语音识别技术有望彻底解决过去人机交互的难题时，它所隐含的商业价值正越来越多地被挖掘出来，并加速了人工智能应用的落地。乐视第三代电视全系列支持远场语音识别、小米等电视生产企业也都在遥控器上做到了“近讲”。

　　何谓近场识别?就是人和麦克风的距离很近。当我们按下一个语音按键，对着遥控器的麦克风说话，此时系统将目标语音传至云端进行识别。目前在业内，近场语音识别技术难度略低，也相对成熟，语音识别率普遍能达到95%以上，甚至能到达97%，后者已经相当于跟人正常交流的水平。

　　而远场识别，比如电视放在客厅里，一般人与电视间的距离在3-4米范围，这时候人可以直接通过说话对设备进行操控。“电视方面在业内做的比较好的，识别率也就在90%上下。”小威直言。

　　那么，在语音技术处理过程中，远场识别为何难以攻克，其中关键技术难点在哪?他表示，在前端识音部分，因为存在一定物理上的距离，周围环境可能就存在噪音和混响的情况，并且电视本身还自带喇叭发声，就还要处理回声消除;再一个，电视的喇叭与它的麦克风的距离又相对很近，而人与电视之间也就3米左右的距离。这导致电视上的麦克风拾取到的人说话的声音可能没有电视喇叭声音大，系统听的更多的声音是电视的声音，这对回声消除技术有很高的要求。另外，基于电视的远场识别技术不仅要做双声道回声消除，对降噪的算法要求也更高，距离越远识别率就越低。因此，远场识别技术相对难度更高。而远场识别电视也将成为下一个市场争夺的焦点。

　　在前端硬件设备研发日趋成熟的同时，包括BAT在内、京东、科大讯飞等厂商纷纷推出并完善各自的语音识别系统平台，后端内容服务产业也逐渐呈迸发之势，一条以语音识别技术为核心的产业链正在形成。

　　据了解，目前在语音识别技术领域相关的创业公司举不胜举，其中还有一些企业是颇具声学研究背景的科研人员所创办，这类企业重点专注于声学前端的处理，比如AEC、降噪。而在偏后的语音识别部分，主要是以BAT为代表的一些实力派企业是研发投入的主力军。另外，再往更后端的语义理解，也形成了BAT与创业企业混战的格局。

　　“其实整个语音识别领域，以音箱为例，前端硬件加上云端语音识别、语义理解，都只是服务的一个环节，未来很可能会形成由厂商免费或较低的价格提供整套技术平台的互联网模式，更多盈利还是通过后端服务来实现。而免费或较低的价格输出技术的目的则是让更多用户和服务能接入进来。音箱产品也一样，厂商是希望后端有更多的有声服务商能够接进来，让用户有好的体验，才会产生付费的愿望。”小威表示。

　　训练数据的比拼

　　事实上，如小威所言，从技术发展上来看，企业推各具卖点的智能语音产品或服务的目的不外乎是为了进一步获取更多的用户语音数据，进而训练和优化各家的语言模型，达到更高的识别准确率。未来语音识别技术应用想要解决口音、噪音、多语言问题，训练模型数据特别是适用于远场环境的训练模型数据的多寡就成为关键!相应的，体验和识别率也都将逐步迎刃而解。

　　以音箱为例，除唤醒词在本地外，其它识别都是在云端处理。所以在技术上，需要有基于海量训练语料建立的高精度声学模型和语音模型训练，再结合强大的解码引擎提升识别效果和识别速度，最终达到人机交互的需求。

　　谷歌、亚马逊一类研发世界级语音识别系统的企业在现实生活中记录下来的数十万小时的真实人声语音不仅拉开了与其他语音识别系统的差距，而且这些永远被记录下来的声音也将直接用作其未来版本语音识别算法的训练数据。

　　相信随着国内语音识别市场的崛起，围绕口音、方言、噪音等存在的技术难题也将逐步得到改善。

　　两个潜在问题不容忽视

　　语音识别虽然只是人工智能链条上的一环，但作为人机交互的入口，其重要意义不言而喻。但是，语音识别这块存在的安全隐患却不能不引起我们足够的重视。小威忧心地指出，当前语音识别领域一个突出的问题就是安全问题。“在不知不觉地情况下，可能你家里的声音都被别人监听了。很大原因在于后端提供服务的这套系统的安全性不够。语音也一样，比如一个智能音箱放在家中，虽然我没说唤醒词，它不会被唤醒。但如果黑客把这套系统攻破了，对外显示它是没被唤醒的，可实际上它一直在那做监听的操作，隐私就泄露了。”

　　其实，现在无论是音箱、语音识别，还是人工智能，业内持两种态度：一部分人觉得技术很新，能够带来方便，很愿意接受;另一部分人对其安全性有所顾虑，担心新应用会泄露用户隐私，用户的任何语音都可能会被窃取，以至于谨慎使用。

　　对此，小威认为，在安全问题的解决上，可能还需要一些实力派企业能够建立一套可参照的安全标准，比如达到一个什么样的程度，用户能够放心使用。从目前智能音箱的出货量来看，市场很热，可实际终端用户接受度偏低，远远无法和手机市场相比。所以，在培养用户的过程中，“安全迟早要被作为一个重要问题来解决。”他表示，“其实任何智能设备都存在安全隐患，这是逃不过去的问题。比如音箱放在某人家中，楼层又不太高，楼下有谁说了一个唤醒词这个音箱都可能被唤醒。而一旦涉及机器人的使用，目前对机器人而言，它还不能区分谁下的指令，它要能识别这个指令是不是需要去执行。否则任何人跟它说话直接就执行，这将是很可怕的一件事情。”

　　小威给出的过渡方案是，可以在音箱产品上设置一个禁麦按键，按下后将音箱停止收音，通过指示灯用户也可以直观看到当前状态。至于一劳永逸的办法，他认为，还是需要提供整套语音识别系统服务的企业能够给出一套比较健全的安全机制，并且这个机制也能被广大用户所认可。

　　另外，他对目前语音识别系统的稳定性问题也极为关注。

　　比如，有的电视或音箱，人半夜在睡眠中，突然电视开机放起广告了，或者突然音箱放起音乐了，这都是系统存在误识别的问题。“可能因为环境中一些噪声导致的。因为这个机器做识别，也不是说百分之百准确，有误识别的情况。误识别如果控制不好，很大程度上会影响用户体验。所以技术还需要不断去完善。”

　　谈到误识别的原因，小威认为，“这是一个综合性问题。故障原因可能涉及整个终端设备的硬件、软件，也可能是语音识别控制或者语义理解有问题，这是系统层面的故障，很难去准确定位。但不管怎样，研发过程的每一个环节都去做好，才能形成一个好的产品，这不是一件简单的事情。”

　　此外，性能验证也离不开大量的测试。小威指出，测试环境也需要依据不同的应用场景灵活设置。比如音箱可能更多的是搭建一个家庭环境，再进行整机黑盒测试或白盒测试。所谓黑盒测试，就是不管什么功能，就是人与设备去做交流，观察它的反馈率准确率、识别率准确率;白盒测试还要对设备里面更具体的每一个层面，比如人说一句话，在前端识音部分，降完噪的声音，听一听是不是达到很好的效果。然后再去识别，识别完的文字跟人讲出的话是不是一样的。之后再去做语义理解，理解完以后所获取的资源，给后端服务提的需求是不是我们想要的等等，每个环节会分解的更具体。

　　显然，在真实场景中，说话人、环境、设备三个因素叠加无形中增加了很多不确定性，这都使语音识别的应用场景更加复杂。而未来该项技术想要全面普及，真正实现理想的人机交互，不光是技术需要完善，体验不断升级，基于深度学习的个性化语音识别也将是艰巨的挑战。(完)

【51CTO原创稿件，合作站点转载请注明原文作者和出处为51CTO.com】