Google又把事搞砸了
从CES(国际消费类电子产品展览会 International Consumer Electronics Show)的进展来看,Google现在确实在把语音交互这事儿搞砸,而越来越变成一家很能折腾但不太能干成事的公司。Google在公有云上不太可能超过Amazon了,自动驾驶上折腾了好多年但看起来挂的可能性非常大,而在语音交互上Google很可能会再一次败给Amazon。 语音助手上的大PK 今年CES上最有意思的事情是语音交互型产品泛滥,从英伟达到联想,各大巨头对此达成了共识,纷纷杀入。这里面比较核心的两家分别是Amazon和Google,前者的代表产品是Echo和内置的语音助手Alexa,后者则是Google Home和内置的语音助手Google Assistant。 正常来讲不管从那个维度来看都是Google具有足够的优势,有技术、有资源、有积累,但具体看下来Google实际上落后甚远,甚至可能难以挽回。 要想看懂语音交互这方向的走势,那么需要深度理解与之相关的产品和技术的本质特征。 Echo这类产品的核心特征是多层技术高度融合(声学、语音识别、语义、搜索、内容)。其中声学是软硬件的分割点,向下关联产品ID以及内部结构,向上影响语音识别。而语义之后的部分则是纯软件与内容。 对于Amazon和Google这样的公司,它们先天把自己定义为做生态和平台的公司,所以其核心一定不是Echo这个硬件产品本身,而是背后的语音助手比如Alexa,因为只有Alexa才代表一种新的生态。 Alexa这种语音助手很多人觉得是像Android一样的操作系统,但实际上看成是一个操作系统+超级App更为合适。 要把Alexa这样的语音助手安装到各种硬件里事实上有两种途径: 一种是纯软的方式。我就把语音助手做好,不管谁要用装进去就可以了。这种模式下在技术层次上最多需要下探到语音识别,核心则是语义和对话。这模式最明显的参照是搜索引擎。 一种则是软硬融合的方式。我做一个标杆型的硬件产品,然后再把硬件产品中的助手开放出去。这模式最明显的参照是Android这样的操作系统。 纯互联网公司会倾向于第一种方式,因为这种模式最轻,而后一种模式要组织生产和销售,还要下探到声学这样的层次,无疑重很多。 但模式一的核心问题有两个: 语音交互很难在现有平台上启动(手机、平板、电脑),而直接把近场上的语音交互迁移到远场上效果会很差,谁来解决落地过程中各种坑坑洼洼的问题? 不知道硬件上的需求,如何设计出与各种硬件适配的API,如何知道怎么提供对于硬件厂商最为便利的方案?把这种苦活累活完全下放给各个硬件厂商去自己摸索吗? Google开放ASR和NLP的API其实已经许久了,但从CES的结果来看,显然Alexa这种系统整合型的方案更受欢迎,它即解决了与下层硬件的适配问题,也解决了后端内容整合问题。 拔高一层来看整件事情,我们可以讲做语音助手这事,事实上有这样几个关键控制点: 做标杆型的硬件产品,但不与已有用户习惯对冲。直接讲就是新品类必须避开手机和PAD,否则一定会被覆盖掉。 丰富后端内容,对于语音助手而言,硬件、音乐甚至打电话都是内容。内容需要从头部开始逐渐填充长尾内容。引申开来就是要把Alexa和Echo这个产品分割开来,让它后面的东西尽可能的多。 树立技术优势,在这里技术既包含深度学习这样的纯算法也包含声学等与物理紧密相连的领域。当内容没多到一定程度的时候,前端技术(声学和语音识别)要比语义更重要。因为它们更影响速度和精度。 亚马逊做对了什么? 在上一节提到的几个点上亚马逊几乎每个都做对了。 第一亚马逊没回避硬件的烦难,花了四五年打造了Echo,这样一来亚马逊就掌握了一个很难被超越的制高点。 这看着很诡异,但事实就会这样,否则的话Google直接把Google Assistant开放出来就行了,根本不需要自己打造什么Google Home。但实际上硬件和背后Assistant的耦合程度远高于搜索和浏览器,搜索和浏览器的耦合程度事实上是便利不便利,但Alexa和前端的硬件的耦合程度则牵涉好不好用的问题。而Google则是迫于Echo的压力才开始做Google Home。 第二亚马逊在Echo获得初步成功后迅速开始分离Echo和Alexa,具体动作就包括完SDK(ASK&AVS)的文档和案例,成立Alexa Fund,积极寻找战略合作伙伴等。最终结果之一就是所谓的7000项技能。7000个技能是非常可怕的事情,完全足以覆盖技术和某些内容上的劣势。这就好比淘宝上商家数一旦超过某个阈值,QQ流量再大也搞不定了。 那现在Google有几个第三方伙伴呢,它只有1个。而且Google似乎还在神游,它作为后来者本应该上来就把这一系列东西都做了,这样才体现后发优势,但它并没有。 第三是用用稳妥的方案打造更优异的体验。稳妥的方案是说前端至少要和亚马逊持平,后端再体现语义和内容连接上的优势,这样就可以在整体上反超。但Google很有意思的选了个两麦克的方案,直接导致交互效果很差。这实在是大昏招,从便宜的角度解释是合理的,但你在做的是个标杆型产品,便宜与否真的那么关键吗? 引申一下这意味着什么? 这意味着Google可能很难追上Amazon了。 Google和Amazon相比无疑的在技术层面上会有优势,但是如果对技术进行分解我们会发现实际上Google真正可能具有优势只是NLP和搜索部分。这就非常可怕,因为NLP部分不存在质的差异,你并不能在这个点上单凭算法明显拉开体验,而在内容没多到一定程度的时候,搜索的优势根本体现不出来。而一旦技术突破,亚马逊则在这部分累积了足够多的数据。请注意这里的数据是完全和场景匹配的数据,而不是匹配度低的网页公开数据,其中还包含了用户的各种偏好。 这时候没人会和Google扮演陪练的角色,一起从头玩一遍。 Google好像又把事搞砸了 在过去漫长的时间里,Google这个公司有点被神话了,让人潜意识的觉得它无所不能,但Google实在不是一个做产品的公司,我们也许可以把它定义为做算法的公司或者对算法痴迷的公司。如果Google真的在语音交互这事上玩大条了,那核心原因很可能就在这里。 做算法的时候技术是第一维度,但做产品的时候体验是第一维度,你并不能掉过来玩:我这项技术很NB,所以我要把它放产品里,所以用户要为此买单。而是要反过来思考,比如延时、响应率和对答准确率在这类产品上影响用户体验,所以我要在现有技术上把这体验做到极致。 从表现出来的行为来看,Google正好属于前一种。 上面说到的选择两麦克风方案来实现Google Home,从这个角度来解释也是合理的。比如说如果想在云端用深度学习等处理前端信号问题,并坚信能做好,那这么选择前端方案就完全没问题,后端持续改善算法就行了。 (编辑:ASP站长网) |