038 | 智能音箱的战斗:语音助手Alexa

038 | 智能音箱的战斗:语音助手Alexa

朗读人:秭明    08′16′′ | 3.79M

作为智能音箱核心功能的语音交互,或者更通俗的说是“语音助手”,对 Echo 来说是最重要的一个模块。在 Lab126 研发音箱的早期,Echo 既是音箱的代名词,也是语音助手的代名词。由此可见,语音助手并非一开始就作为独立模块存在。

语音助手不是个新鲜事物,市面上早有独立的语音助手存在。在这个领域最有远见的,无疑是苹果公司的创始人史蒂夫 · 乔布斯。

Siri 原本是在苹果上面大卖特卖的一款 App,发布后没多久,被乔布斯看到。乔布斯很有远见地预见到了语音交互的重要性,迅速把这个公司的软件买下并整合进了 iOS,成为 iPhone 非常重要的功能。

我有时候不得不感叹人生不逢时,或者是天妒英才。今天来看,乔布斯收购 Siri 的目的,肯定不仅仅是让它成为 iPhone 里面一种可选的沟通方式,他肯定在下一盘很大的棋,但是一切都随着他的去世而烟消云散了。

Siri 作为 iPhone 上的语音助手,此后在蒂姆 · 库克(Tim Cook)领导下的苹果公司发展,可谓乏善可陈。而此后微软和谷歌都进入语音助手市场,无论是 Windows 10 还是安卓手机都实现了对语音助手的支持。

但是我们知道,这两年最红火的语音助手是 Alexa,它属于亚马逊。

全力以赴打造语音助手

Alexa 是怎么诞生的呢?这就要回到 2015 年 8 月,Echo 智能音箱卖了大概 10 个月之后,亚马逊突然意识到自己的语音助手可以作为一个独立的云服务存在,并不一定要和 Echo 智能音箱捆绑在一起。

于是亚马逊悄悄地把那个叫 Echo 的语音助手改名为 Alexa。Alexa 原本是亚马逊旗下的一个网站分析工具,语音助手算是鸠占鹊巢。没过多久,谁也不再记得那个曾经的网站分析工具了,Alexa 成了专门指代亚马逊语音助手的名词。

但是为了保证向后兼容,在 Echo 智能音箱语音助手的提醒词里,虽然默认是 Hello Alexa,最初推出音箱时用的提醒词 Hello Echo 也依然保留着。只有从提醒词里,我们才能够看到过去的痕迹:原来 Alexa 曾经叫作 Echo。

亚马逊最初研发音箱的时候,对语音处理技术的重要性并不是特别清楚,所以语音助手的技术水平很一般。当 Echo 音箱卖得很好时,亚马逊很快就意识到了语音处理技术的重要性,但是语音处理技术人才储备并不多。索性西雅图有一家在消费市场并不是特别知名,但是在专业语音处理领域非常著名的公司 Nuance。

Nuance 在西雅图有一个研发中心,中心里有很多专门做语音处理技术的人才,亚马逊就狠狠地高价在这家公司里面大肆搜罗了一番。最后,Nuance 西雅图研发中心的很多核心人员都跑去了亚马逊。

为了进一步增强在语音处理领域的技术和人才储备,亚马逊又迅速出手,接连收购了 Yap 和 Evi 两家创业公司。至此,亚马逊终于有些安心,给 Alexa 储备了足够的语音处理人才。

用机器学习搞定语音识别

Echo 首先是个音箱,而音箱的主要功能是放音乐。但有些活动,比如聚餐、舞会中会有很多其他声源,这类场景下和音箱进行交互就有一个很大的问题:音箱如何在这些嘈杂的声音里识别出真正的交互命令呢?

应用场景的不同,决定了 Echo 音箱上的语音助手 Alexa 和手机上的语音助手对技术的需求有很大不同。简单来说,如果手机上的语音交互难度是一颗星,那么深处嘈杂环境下的音箱的语音交互技术起码得是四颗星。这是 Echo 智能音箱必须解决的一个难题。

在一次公开的交流中,负责 Alexa 相关业务的首席科学家、著名的机器学习学者罗希特 · 普拉萨德(Rohit Prasad)在接受采访时简单提到过,Lab126 团队因为这个问题一度让 Echo 智能音箱项目被搁浅,最后不得不在全公司范围内寻求帮助。

而之后的解决方式是机器学习。亚马逊曾经在网络上公开过一段音频,对比了在嘈杂环境上的原始声音,和经过机器学习处理的声音。在音频里你可以看到,经过机器学习处理的音频达到了近乎完美的噪音过滤,这是 Echo 在极其恶劣嘈杂的环境下,依然能够表现出非常良好的语音识别功能的主要原因。

Echo 上市以后,无论在多嘈杂的环境里,语音交互的识别能力都非常好,这是 Echo 能够迅速脱颖而出最重要的原因之一。

亚马逊公司长期以来给人的感觉是商业决策优于技术,亚马逊的核心技术并没有让人觉得多惊艳。然而在这件事情上,亚马逊显现了用技术解决难题的能力,这颇让我对亚马逊的印象有了很大的改观。

语音平台促进成长

Alexa 从 Echo 独立出去以后,就开始在亚马逊的各大设备上集成,比如说亚马逊的 Fire TV 就集成了 Alexa。Alexa 在亚马逊内部可谓大行其道,任何一个项目组的东西如果可以和 Alexa 整合,在亚马逊内部的优先级都会上升许多。

除了“内销”,亚马逊还把这个语音助手“出口”到了各行各业去,包括智能冰箱、汽车,乃至华为手机,等等。Alexa 的遍地开花,让亚马逊作为一个语音助手市场的后来者,占据了很多有利位置。

从技术开发上,Alexa 也有了自己独立的研发团队,而且目前已经非常庞大,有包括一个总监在内的很多人。在亚马逊,如果一个项目有总监级别的人参与,就代表着这个项目实在是一个非常重要的项目,是公司首席级高管(C-level)可以直接看到和关注的项目了。Alexa 有了总监级人物以后,在亚马逊的地位也就突显出来,不再是 Echo 下面的一个附属项目了。

在亚马逊内部,很多人都相信语音交互是一个非常重要的、新的流量渠道,而且在未来会更加重要,占领了语音,也就在未来的新交互方式里占据了一块稳固的地盘。所以自从 Alexa 独立以后,这个团队就一直在膨胀。很有意思的是,我在 LinkedIn 上经常可以收到来自亚马逊招聘人员的邀约,其中为 Alexa 招人的比例一直居高不下。

如果说一开始 Echo 作为一款智能音箱,对于亚马逊占领客厅和厨房很重要的话,那么现在亚马逊的语音助手 Alexa 和它给第三方开放的技能平台,则是亚马逊的重中之重。如果说这之前,亚马逊更关注音箱,那么 Alexa 作为一个软件独立出来发展后,亚马逊关注的重点也就从硬件转向了软件和平台:硬件,包括智能音箱在内,都是为这个软件平台服务的。亚马逊今天发展的各种硬件,确实已经变为主要为 Alexa 平台服务,硬件本身的作用已经远远比不上这个语音平台了。

有了这个语音平台,亚马逊不但可以在自己的硬件上推广,还可以把语音平台开放给第三方。让第三方的硬件都进入这个平台。这里就有华为的手机、LG 的电器,未来我们还可以预见到的,比如说车载系统等等。

对比硬件的影响力,语音平台的影响力要大得多,最终平台会造就一个生态圈,而任何生态圈都有很强的黏性。亚马逊也可以凭借平台把影响力扩大到自己的业务之外,让 Alexa 成为整个互联网和 IT 产业里面很多公司都愿意加入的生态圈,这种影响力是智能音箱不可能达到的,也是亚马逊从来都没有企及过,但是现在却有可能成功的。

从 Echo 音箱到 Alexa 语音助手的变迁,是优先级的一个巨大改变。这个变迁在亚马逊里面用了 10 个月,亚马逊对市场反应的这个速度,让我非常吃惊。通常在其他互联网或者软件公司,这种变迁花费三年五年也是很常见的。这样看来,亚马逊能够在语音市场占据一片天地,也是有原因的。

版权归极客邦科技所有,未经许可不得转载

通过留言可与作者互动