专访小米AIoT高管:通过AI提升国内制造业整体水平
2020年11月5日,小米成功举办MIDC2020开发者大会。大会以“生活的科技”为主题,通过展示小米在相机、屏幕、充电、AI、IoT、智能制造等多个领域取得的重大突破,充分展示了小米的技术实力。 本次大会,小爱同学5.0版本带来五大升级,从传统的语音助手升级为智能生活助手,给消费者提供更好的智能生活体验。 此次2020MIDC小米开发者大会上,小爱同学三维虚拟形象首次亮相,和崔宝秋的一段顺畅互动成为大会一道亮眼风景。除了极具特色的虚拟形象,小爱同学5.0还升级了五大贴心功能,具体体现在全场景智能协同、对话式主动智能、定制化情感语音、多模态视觉能力和智慧学习好助手方面。 得益于小米前瞻性的生态链布局,庞大的智能硬件产品也为小米的AI技术落地提供了沃土。过去一年,小米在视觉、声学、语音、自然语言处理、知识图谱、机器学习等领域均取得了技术上的突破进展。比如超级夜景、魔法换天、魔法分身、Vlog、通话降噪、阵列增加等全新技术都已经在最新发布的硬件产品中得以应用。 发布会后,小米集团人工智能部总经理、AIoT战略委员会副主席叶航军,小米人工智能部AI实验室主任、NLP首席科学家王斌以及人工智能部副总经理王刚共同接受了记者的采访,以下是本次采访的部分摘要。 小米在人工智能方面短期和未来长期的计划和目标 叶航军:短期的目标比较明确,目前两个大的方向,一个就是AI产品和小爱同学要支持好公司在智能生活的战略,就是手机×AIoT构建智能生活的战略,短期目标就是要把这个事情做好。因为在手机×AIoT战略里面,小爱是个非常重要的环节,可以认为是一个入口环节和落地的作用。 另外一个就是AIoT方向,这六大技术方向现在都有非常明确的业务和落地场景,因为AI大家对它的期望很高,其实它有非常多的技术问题解决得还很不好,这是我们后面要努力把这个事情做好的一个决心。这是短期的目标。 长期目标,我理解主要是两个,一个就是要把智能做得更深入一些。现在很多环节其实并不智能,这个是我们需要把整个在小米的业务体系里面,把各个层面的智能要做得很深入,除了用户可见的产品体验以外,还有一些不太容易注意得到的,比如说客服也是需要智能的,因为大家可能有个不太好的体验,就是打了客服电话就让你等,让你等的原因是接线员不够多,接线员不够多的原因是成本问题。大部分人客服的问题70%、80%都是相对比较简单的问题,对目前的AI来讲都是AI能解决的问题,所以我们现在也在加大投入,这可能是用户不太会想到的一个场景。一个长期目标就是要把各个环节的智能化做得更深入。 第二个方向就是往产业的上游去做,我们今天讲了智能制造,这是我们非常重要的一个场景。小米除了向消费者直接提供产品之外,也是希望通过技术来帮助整个国内的制造业提升制造水平,智能制造里面非常重要的技术就是AI技术,这是我们的一个长期目标。 小爱同学的动态语音识别技术的前景 王斌:先讲讲动态语音识别技术,动态语音识别技术是说模型的更新非常快,语音识别还是根据线上各种反馈,根据发展会不断的动态调整。但传统的这种语音识别模型都非常非常大,进行调整是比较耗代价的,比如说以前一周更新一次,但是我们这个技术把它碎片化,通过技术上变成一个可迭代的增长式模型,在很短的时间内可以不断的进行动态的调整。这个叫动态语音识别技术。 当然这个技术未来还有非常大的发展空间,比如说我们针对不同的人,其实不同的人大家都知道,语音识别其实跟人有关,有些人他识别得好一些,有些人识别得差一些。我们这个报告里面都讲了是一个平均水平,但实际上到真正每一个用户又不太一样,前几天有一个视频我觉得挺好玩的,就是一个老外特别喜欢小爱同学,但是他发音不太准,他就很生气。也就是说语音识别本身并没有我们想象得那么如意,针对不同的人、不同的水平、不同的阶段,它的识别率并不能达到通用的很高的水平,所以这种情况下,未来我们会做个性化,针对不同的人进行不同的训练,来动态调整模型,使得对所有的用户的感觉都很好,这就是我们最终的目标。所以,这个动态语音识别技术未来来看还是非常有前景的。 小爱同学在多轮对话方向上的进展 王刚:多轮对话确实是我们去年在小爱同学3.0的时候就重点做的功能,2018年3月份就启动了多轮对话的研发,到今天也接近三年的时间了。在这个多轮对话上,我们还是面对到了一些技术的挑战,在现有技术的框架下,现在的技术框架叫做AUS框架,去表述用户自然语言的处理,我们是逐步去优化的,多轮的时候,从技术框架去解决多轮问题的时候,还是遇到了一些困难。多轮的理解对整个理解的表示能力上来讲,它是很受限,所以我们现在首先在现有的技术框架下去逐步的突破对多轮的理解力,多轮理解力我们现在内部已经做出200多种组合的多轮对话能力。比如说你问小爱同学假如说北京天气怎么样,明天去哪儿更好玩,我们会把上文“北京”带下来,有这种上下文知识的传递。我们内部现在有200种组合能力的对话,怎么样更好的针对多轮对话有一个更自然的全面理解,这一块是更需要更新的技术突破,在现有技术框架下,用户进行多轮对话有一个全面自然的问题的解决的。 然后我们从产品侧的话,也发现用户对多轮对话这个功能还是喜爱的,自从我们去年发布了多轮对话到今天为止,因为现在有一个开关,用户可以在这个设备上打开多轮对话,然后跟用户的交互就变成了你只需要一次唤醒,就可以多轮对话了,现在每天大概有200万人跟小爱同学进行多轮对话,当然可能会有很多话会在多轮的场景下回答的像单轮,就是多轮长距离的下下文的理解可能还不是很少。 小米AI的核心竞争力 叶航军:我理解不少厂商对AI的判断大致一致,大家都觉得这是一个核心竞争力,这个不会有问题。每个公司都会有自己的核心竞争力,我理解对小米来讲,可能是几个层面吧,第一个层面还是场景,这是取决于每个公司不同生态,手机×AIoT是最大的场景,从场景开始比如说到数据的理解,如果这是你的场景,你必然会对用户更理解,长期积累下来这会是你的优势。再往下是算法,算法也是为场景和数据服务的,最后是人才,因为你不同的生态、不同的场景会吸引不同的人过来,你要找到最合适你的生态的人才,然后最终效果才会变得最好,我的理解是这个层面的。 小米AI在发展过程中遇到最大的挑战 (编辑:ASP站长网) |