语音识别技术简史（三）_网络和服务器管理

4000156919

当前位置：首页 > 网络和服务器管理_ERP百科

语音识别技术简史（三）

来源：巨灵鸟软件作者：进销存软件发布：2017/5/11 浏览次数：5230

语音识别的产业历程
语音识别这半个多世纪的产业历程中，其中共有三个关键节点，两个和技术有关，一个和应用有关。第一个关键节点是 1988 年的一篇博士论文，开发了第一个基于隐马尔科夫模型（HMM）的语音识别系统—— Sphinx，当时实现这一系统的正是现在的著名投资人李开复。

从 1986 年到 2010 年，虽然混合高斯模型效果得到持续改善，而被应用到语音识别中，并且确实提升了语音识别的效果，但实际上语音识别已经遭遇了技术天花板，识别的准确率很难超过 90%。很多人可能还记得，在 1998 年前后 IBM、微软都曾经推出和语音识别相关的软件，但最终并未取得成功。

第二个关键节点是 2009 年深度学习被系统应用到语音识别领域中。这导致识别的精度再次大幅提升，最终突破 90%，并且在标准环境下逼近 98%。有意思的是，尽管技术取得了突破，也涌现出了一些与此相关的产品，比如 Siri、Google Assistant 等，但与其引起的关注度相比，这些产品实际取得的成绩则要逊色得多。Siri 刚一面世的时候，时任 Google CEO 的施密特就高呼，这会对 Google 的搜索业务产生根本性威胁，但事实上直到 Amazon Echo 的面世，这种根本性威胁才真的有了具体的载体。

第三个关键点正是 Amazon Echo 的出现，纯粹从语音识别和自然语言理解的技术乃至功能的视角看这款产品，相对于 Siri 等并未有什么本质性改变，核心变化只是把近场语音交互变成了远场语音交互。Echo 正式面世于2015年6月，到 2017 年销量已经超过千万，同时在 Echo 上扮演类似 Siri 角色的 Alexa 渐成生态，其后台的第三方技能已经突破 10000 项。借助落地时从近场到远场的突破，亚马逊一举从这个赛道的落后者变为行业领导者。

但自从远场语音技术规模落地以后，语音识别领域的产业竞争已经开始从研发转为应用。研发比的是标准环境下纯粹的算法谁更有优势，而应用比较的是在真实场景下谁的技术更能产生优异的用户体验，而一旦比拼真实场景下的体验，语音识别便失去独立存在的价值，更多作为产品体验的一个环节而存在。

所以到 2019 年，语音识别似乎进入了一个相对平静期，全球产业界的主要参与者们，包括亚马逊、谷歌、微软、苹果、百度、科大讯飞、阿里、腾讯、云知声、思必驰、声智等公司，在一路狂奔过后纷纷开始反思自己的定位和下一步的打法。

语音赛道里的标志产品——智能音箱，以一种大跃进的姿态出现在大众面前。2016 年以前，智能音箱玩家们对这款产品的认识还都停留在：亚马逊出了一款叫 Echo 的产品，功能和 Siri 类似。先行者科大讯飞叮咚音箱的出师不利，更是加重了其它人的观望心态。真正让众多玩家从观望转为积极参与的转折点是逐步曝光的 Echo 销量，2016 年底，Echo 近千万的美国销量让整个世界震惊。这是智能设备从未达到过的高点，在 Echo 以前除了 Apple Watch 与手环，像恒温器、摄像头这样的产品突破百万销量已是惊人表现。这种销量以及智能音箱的 AI 属性促使 2016 年下半年，国内各大巨头几乎是同时转变态度，积极打造自己的智能音箱。

未来，回看整个发展历程，2019 年是一个明确的分界点。在此之前，全行业是突飞猛进，但 2019 年之后则开始进入对细节领域渗透和打磨的阶段，人们关注的焦点也不再是单纯的技术指标，而是回归到体验，回归到一种“新的交互方式到底能给我们带来什么价值”这样更为一般的、纯粹的商业视角。技术到产品再到是否需要与具体的形象进行交互结合，比如人物形象；流程自动化是否要与语音结合；酒店场景应该如何使用这种技术来提升体验，诸如此类最终都会一一呈现在从业者面前。而此时行业的主角也会从原来的产品方过渡到平台提供方，AIoT 纵深过大，没有任何一个公司可以全线打造所有的产品。

语音识别的产业趋势
当语音产业需求四处开花的同时，行业的发展速度反过来会受限于平台服务商的供给能力。跳出具体案例来看，行业下一步发展的本质逻辑是：在具体每个点的投入产出是否达到一个普遍接受的界限。

离这个界限越近，行业就越会接近滚雪球式发展的临界点，否则整体增速就会相对平缓。不管是家居、酒店、金融、教育或者其他场景，如果解决问题都是非常高投入并且长周期的事情，那对此承担成本的一方就会犹豫，这相当于试错成本过高。如果投入后，没有可感知的新体验或者销量促进，那对此承担成本的一方也会犹豫，显然这会影响值不值得上的判断。而这两个事情，归根结底都必须由平台方解决，产品方或者解决方案方对此无能为力，这是由智能语音交互的基础技术特征所决定。

从核心技术来看，整个语音交互链条有五项单点技术：唤醒、麦克风阵列、语音识别、自然语言处理、语音合成，其它技术点比如声纹识别、哭声检测等数十项技术通用性略弱，但分别出现在不同的场景下，并会在特定场景下成为关键。看起来关联的技术已经相对庞杂，但切换到商业视角我们就会发现，找到这些技术距离打造一款体验上佳的产品仍然有绝大距离。

所有语音交互产品都是端到端打通的产品，如果每家厂商都从这些基础技术来打造产品，那就每家都要建立自己云服务稳定，确保响应速度，适配自己所选择的硬件平台，逐项整合具体的内容（比如音乐、有声读物）。这从产品方或者解决方案商的视角来看是不可接受的。这时候就会催生相应的平台服务商，它要同时解决技术、内容接入和工程细节等问题，最终达成试错成本低、体验却足够好的目标。

平台服务并不需要闭门造车，平台服务的前提是要有能屏蔽产品差异的操作系统，这是 AI+IOT 的特征，也是有所参照的，亚马逊过去近 10 年里是同步着手做两件事：一个是持续推出面向终端用户的产品，比如 Echo，Echo Show等；一个是把所有产品所内置的系统 Alexa 进行平台化，面向设备端和技能端同步开放SDK和调试发布平台。虽然 Google Assistant 号称单点技术更为领先，但从各方面的结果来看 Alexa 是当之无愧的最为领先的系统平台，可惜的是 Alexa 并不支持中文以及相应的后台服务。

国内则缺乏亚马逊这种统治力的系统平台提供商，当前的平台提供商分为两个阵营：一类是以百度、阿里、讯飞、小米、腾讯为代表的传统互联网或者上市公司；一类是以声智等为代表的新兴人工智能公司。新兴的人工智能公司相比传统公司产品和服务上的历史包袱更轻，因此在平台服务上反倒是可以主推一些更为面向未来、有特色的基础服务，比如兼容性方面新兴公司做的会更加彻底，这种兼容性对于一套产品同时覆盖国内国外市场是相当有利的。

类比过去的 Android，语音交互的平台提供商们其实面临更大的挑战，发展过程可能会更加的曲折。过去经常被提到的操作系统的概念在智能语音交互背景下事实上正被赋予新的内涵，它日益被分成两个不同但必须紧密结合的部分。

过去的 Linux 以及各种变种承担的是功能型操作系统的角色，而以 Alexa 为代表的新型系统则承担的则是智能型系统的角色。前者完成完整的硬件和资源的抽象和管理，后者则让这些硬件以及资源得到具体的应用，两者相结合才能输出最终用户可感知的体验。功能型操作系统和智能型操作系统注定是一种一对多的关系，不同的 AIoT 硬件产品在传感器（深度摄像头、雷达等）、显示器上（有屏、无屏、小屏、大屏等）具有巨大差异，这会导致功能型系统的持续分化（可以和 Linux 的分化相对应）。这反过来也就意味着一套智能型系统，必须同时解决与功能型系统的适配以及对不同后端内容以及场景进行支撑的双重责任。

这两边在操作上，属性具有巨大差异。解决前者需要参与到传统的产品生产制造链条中去，而解决后者则更像应用商店的开发者。这里面蕴含着巨大的挑战和机遇。在过去功能型操作系统的打造过程中，国内的程序员们更多的是使用者的角色，但智能型操作系统虽然也可以参照其他，但这次必须自己来从头打造完整的系统。（国外巨头不管在中文相关的技术上还是内容整合上事实上都非常薄弱，不存在侵略国内市场的可能性）

随着平台服务商两边的问题解决的越来越好，基础的计算模式则会逐渐发生改变，人们的数据消费模式会与今天不同。个人的计算设备（当前主要是手机、笔记本、Pad）会根据不同场景进一步分化。比如在车上、家里、酒店、工作场景、路上、业务办理等会根据地点和业务进行分化。但分化的同时背后的服务则是统一的，每个人可以自由的根据场景做设备的迁移，背后的服务虽然会针对不同的场景进行优化，但在个人偏好这样的点上则是统一的。

人与数字世界的接口，在现在越来越统一于具体的产品形态（比如手机），但随着智能型系统的出现，这种统一则会越来越统一于系统本身。作为结果这会带来数据化程度的持续加深，我们越来越接近一个百分百数据化的世界。

总结
从技术进展和产业发展来看，语音识别虽然还不能解决无限制场景、无限制人群的通用识别问题，但是已经能够在各个真实场景中普遍应用并且得到规模验证。更进一步的是，技术和产业之间形成了比较好的正向迭代效应，落地场景越多，得到的真实数据越多，挖掘的用户需求也更准确，这帮助了语音识别技术快速进步，也基本满足了产业需求，解决了很多实际问题，这也是语音识别相对其他 AI 技术最为明显的优势。

不过，我们也要看到，语音识别的内涵必须不断扩展，狭义语音识别必须走向广义语音识别，致力于让机器听懂人类语言，这才能将语音识别研究带到更高维度。我们相信，多技术、多学科、多传感的融合化将是未来人工智能发展的主流趋势。在这种趋势下，我们还有很多未来的问题需要探讨，比如键盘、鼠标、触摸屏和语音交互的关系怎么变化？搜索、电商、社交是否再次重构？硬件是否逆袭变得比软件更加重要？产业链中的传感、芯片、操作系统、产品和内容厂商之间的关系又该如何变化？

本文得到众多语音识别领域专家的指导，并引用了一些参考资料的配图，在此表示感谢，本文中的不足之处还请批评指正。

来源：巨灵鸟欢迎分享本文

上一个文章：技术一旦被用来作恶，究竟会有多可怕（一）

下一个文章：云计算数据中心综合布线的七大发展趋势