亚马逊的Alexa到底神奇在哪里
随着亚马逊的智能音箱Echo销量逼近千万,Alexa无疑成为了全球范围内截至目前最为成功的消费级AI产品,也可谓是亚马逊这家电商公司在人工智能领域一次的跨界奇迹,极大刺激国内各个科技公司也纷纷进入语音交互领域。根据内部人士提供的数据,包括阿里、百度、腾讯、华为、小米、联想、海尔、科大讯飞等国内已经有超过200多家公司正在研发类似Echo的智能音箱。 但是,我们真的认真琢磨过亚马逊的Alexa吗?或者我们真的了解评测过Echo吗?尽管Amazon在这个领域持续投入了多年,但是Amazon一向对于PR的宣传审核严格,实际上国内对于亚马逊关于技术细节方面的思考,知之甚少。 最近EmTech Digital人工智能峰会上,MIT Technology总编辑 Jason Pontin 对话亚马逊Alexa负责人 Toni Reid,透漏了一些Toni Reid关于消费级语音交互系统的思考。Toni Reid经历了从 Alexa 从无到有的全过程,在这次谈话中,Toni Reid也解释了Alexa为什么不用屏幕以及多轮对话的原因。 Toni Reid认为,语音是最简单、最自然的交互方式,也是人类沟通最基本的方式。所以,Amazon在为Alexa设计硬件载体Echo的时候,并没有为其加上屏幕。这种做法其实是增加了难度:用户只能通过纯语音来使用设备,而并没有屏幕反馈作为辅助。当然,Amazon也正在Fire TV和Kindle平板电脑等设备上尝试部署Alexa,但这涉及Alexa比较大的改变。 Toni Reid更是坚持认为,当用户下达语音指令后,Alexa实际上只有一次机会去部署相应的动作,而不能去和用户来来回回的多轮对话。一般而言只有两次对话机会,如果第三次对话还没弄清用户需求,就算彻底的失败了。这样的反复对话对用户来说是很糟糕的体验。 这是两个非常值得国内用户思考的点,从这两个点也可以展开来思考更多问题,我们期望国内能够做出超越Echo的产品,至少也要比肩Echo的销量和影响力。 为什么是Amazon脱颖而出? 这是一个很奇怪的问题,确实Amazon更像一个电商而不是高科技的公司。实际上,Amazon在没有谈及Echo的销量之前,Amazon也并没有被产业和媒体关注,同时也没有被归类到人工智能公司。因为相比Google、Microsoft、Apple、Facebook这类公司,甚至包括和国内的百度、阿里和腾讯这些公司比较,Amazon实在也拿不出像样的、同其他公司AI研究院一般提供的PPT,况且承担重任的Lab 126还是一个依靠收购组建的大杂烩式的产品公司,更难堪一点的是,Echo一开始的项目优先级也是最末的。为什么会是这样一个情况? 这个,有偶然,也有必然。若从科学实验的角度来看,偶然性确实很大,成功的实验往往都是那么偶尔的一个闪光,但是这个闪光却也是亚马逊长期投入的必然结果。 首先来看,Amazon的优势在于没有太大的技术包袱,Amazon显然对于成立研究院没有太大兴趣,正因为没有过多的历史限制,才会让产品和技术结合的更加紧密,而不至于让产品思维被工程师所束缚。特别重要的是Amazon Echo切中的市场痛点是远场语音交互,这让Google、Microsoft、Apple长期积累的近场语音交互优势几乎没有意义,显然Alexa更懂用户对于远场语音交互的需求。 其次来看,Amazon对于技术细节的耐心实际超越了Google、Microsoft这些AI巨头,这里要把Apple拿出来,因为Apple做产品的思路还是和Amazon比较一致的。Amazon和Apple显然对于技术PR和论文都没有多大兴趣,但是对于产品和专利却极其上心。从公司角度来看,PR和论文确实耗费公司极大的精力,这两者对于创业公司来说可能是提高知名度的重要方法,但是对于成熟公司,知识产权、产品和营销能力显然更加重要,而且这也决定了公司对于技术的耐心程度。 因为过多的PR和论文会让研究人员忽略对于技术细节的把控,当公司的技术人员动不动就谈技术趋势和架构的时候,这家公司反而危险了,那么请问谁来把控技术落地时候的无数个细节问题?没有细节的持久打磨,试问哪个用户会为此买单?当掏出钱袋的那一刻,用户的体验永远是第一位的。 最后来看,技术人员往往容易陷入科学幻想,总是喜欢做很多超前的事情。这在技术领域是必要的,但是不要让工程师甚至科学家过多干涉产品定义也是非常重要的一个方面。市场上永远都是满足当前需求的产品才能获得用户,而不是你的技术多么高深,显然Amazon更是轻装上阵,灵活的产品思考是Echo定义的关键因素,这样才能更容易懂得用户。 2 语音交互技术到底成熟没有? 这个问题之前,可以先回忆一下,我们平时能看到身边多少人在用语音交互?事实上这很少,除了汽车导航的时候,可能大部分时候只是偶尔秀一下,而且还是对着手机喊话。这就说明了问题,语音交互其实根本就不成熟。 这就不对了,因为几乎所有的AI公司都在号称语音识别已经接近甚至超越人类了,不要信以为真,别说远场语音识别,就连近场语音识别也做不到。那些所谓的指标都是论文指标,仅仅是在特定的测试集合下所测得结果,可以理解为想要怎样的指标几乎都可以优化出来。So What?这又有个啥子意义,因为我们人类从来不是实验室的小白鼠,我们需要的不是实验环境下的技术应用。 语音交互包括了语音识别和语义理解两大部分。我们就从语音识别这点来看,仅仅这点还有很多很多的问题需要解决。语音交互的落地首先要解决的是真实场景下的语音识别,这就要求要考虑说话者与机器的距离,要让说话者在屋子任何位置下的语音命令都能被机器识别。而这又牵扯到对噪声、混响、回声等干扰声音的处理,这是光靠所谓深度学习是解决不了的。 显然,所有AI相关技术的落地都会碰到场景的问题,而场景则是物理学的范畴,物理的进展并没有像AI频繁的会议宣称的那样有飞跃式的进步。但是不解决场景的物理问题,单靠计算机科学就大谈人工智能改变人类为时过早了。玩笑一下,拔掉电源计算机还能工作不? 3语音助手要不要屏幕的问题? Toni Reid提到,Alexa为了让用户适应语音交互的方式,特意去掉了屏幕。但是这不代表屏幕就不重要,虽然语音是最简单、最自然的交互方式,但是我们80%的信息还是依靠视觉获取,即便语音交互的时候我们也依赖很多肢体表达来确认我们是否得到了有效反馈。 这一点在Echo还是做不到,至少这个阶段来说,这是一个无奈的折衷选择。其中有一个重要的点Toni Reid没有提到,因为Amazon并不想把Echo定义为一个音箱,而是一款全新的AI品类,但是创造一个新的品类也意味着巨大的风险。 (编辑:ASP站长网) |