讯飞输入法创始人:从一个Demo到4亿用户,我的一些思考和努力(2)
但是为什么我们敢往这个方向持续去投入呢?那是因为,原来的语音输入在技术上还是一种传统的在本地的过程。所以IBM的语音输入之所以没有流行开,除了电脑上的键盘、鼠标交互过于强势之外,还有就是因为它是一个本地的方式。它的技术进化速度,没有和使用群体规模的增长产生我们称之为“涟漪效应”的关系。 那什么叫“涟漪效应”?简单解释一下就是,当我们把一项技术初期推出去的时候,可能它并不是一项在大面积上都能达到完全使用水平的。但是,它仍然会接触到一小部分用户。 对于这一小部分用户来说,如果我们能够快速地到达他们,而且如果系统能够基于这部分用户的反馈形成数据。我们据此再形成一个二轮的迭代,马上就会有第二滴水滴下来,涟漪就会进一步地放大。它的适用群体的范围就会比初期的有所增长。而这样的一个过程,我们如果持续地去强化它,就是“涟漪效应”。 从技术角度来解释,其实我们的架构本身就是基于云计算去实现的。所有的技术更新,算法更新,还有资源更新,全都是在服务端无缝地完成的。所以,这首先它是在迭代的机制上,保证了不需要有一个很长的过程。 另外一方面就是,语音的这个算法现在是用大数据的方式再加上模式识别的训练,其实在几年前我们还是用传统的训练方式,现在都用深度神经网络的训练。所以,这样的数据越多,它的效果进化地越好。所以我们是以这样一个循环的方式去做的。 我们当时对语音的核心指标,比如识别率,有一个技术上的预判。随着用户的量级到了一定的规模,我们整个的语音识别效果是很快可以达到一个使用门槛的,甚至将来会达到完全可用的水平。 所以,基于对市场的把握还有对于设备形态和输入演进的判断,还有对于我们自有技术的分析,我们的产品推向市场的切入点和核心的定位就放到了语音输入上。 事实上,我们第一版推出的时候,我们的名字就叫讯飞语音输入法。当然我们不是只有语音输入法,我们还包含了手写输入和拼音输入。但是为了强化我们产品的定位,我们其实用了很长一段时间讯飞语音输入法这个名字。 我们在2010年的10月28号的时候,对外正式推出了第一个版本,主打的功能就是语音输入。 推出来之后,初期我们的语音用户,确实很多就是一些在电脑时代尝试过语音输入的用户,用过IBM的那个电脑单机版语音产品的用户。另外有一些是对于科技比较感兴趣的用户,这与我们之前预期的非常一致。 虽然我们初期的效果比起现在的水平是差很多,但是这些用户仍然会非常积极地使用,并且给我们提出了各种各样的改进意见。这些用户在圈子里的传播的速度也是非常的快。 所以,整个这个语音输入的品牌,在一个很小的群体里沉淀下来的。而且也很高兴看到就是,我们对整个行业的判断是正确的,特别是苹果发布了Siri之后。虽然它不解决输入问题,但它其实在行业里是点了一把有关语音技术的火。 然后,接下来我们就看到了,2010年讯飞推出语音输入法的时候是市场上独一份,短短的几年时间,各大输入法,像google、qq、百度、搜狗,陆续地标配了语音输入的功能。通过这一点,就说明现在对于语音输入,我们认为它已经是手机上标配的一种输入方式。 接下来还要面临的一个问题是,我们定位的这个产品方向很可能最后变成一个标配的产品,因为大家可能都看好这一点。 这是非常严峻的一个事实。或者说,我们在自己的核心定位上,必须要保持一个持久的竞争力。所以我们需要持久地、深入地去投入,去做自己的创新。接下来会讲一下,讯飞输入法在语音功能方面,我们的一些思考和做过的一些创新的努力,包括取得的一些结果。 1.语音识别率业内第一,达到97% 对于语音输入来说,刚开始大家最关心的是识别率的问题,这个功能是能否达到使用水平的一个核心门槛。我们分析认为,识别率至少要达到一定的指标,比如说95%以上,这样的功能,其实就可以达到一个使用的门槛。可以讲,讯飞是最早迈过这个使用门槛的公司。 在2012、2013年的时候,我们的整体识别效果就已经达到这个水平了。 在2014年的时候,我们达到了97%的水平。这个识别率可以说已经是业内第一了。 对于语音输入来说,很多用户在用的过程中也发现这样的一些问题。 2.不用联网就能语音输入,克服了网路条件不稳定问题 初期我们最先关注的是关于网络的依赖问题。我们的语音输入虽说基于云架构,整个系统的迭代非常快,但是令用户比较困扰的其实是它比较依赖网络,特别是初期。 那时我们的4G还没有普及,网络条件还不稳定。即便是4G时代,现在在高铁上或者是一些信号盲区如果用语音输入其实还是比较痛苦的。另外,对于流量,很多用户还是在意的,虽然语音输入并不能占太多的流量,但是他心里面仍然有这个考虑。 对于网络的依赖,我们也想了一些办法去解决,最终我们的方案就是用在线加上离线的语音。这里的挑战在于,对离线语音一样是需要强调它的识别的效果的,另外还有它在手机端的响应速度也是一大挑战。 我举个简单例子让大家知道这个挑战有多高。因为我们在线语音是在服务器上计算的,从技术角度上讲,我们要做到现在的效果,需要依赖的资源通常都是按几百G上T的一个量级去做的。大家知道,我们现在在手机端能放的语音资源,如果是离线语音包我们能做到30M以内,最大的语音包也就控制在100M以内。所以,要保证效果好这个资源差距是很大的。 另外,就是服务器都是用GPU去做运算,或者说多核的高效能CPU。目前手机端虽然号称是8核、16核,但是跟服务器的配置仍然是完全不能比的。所以,怎样在手机端也能做到计算解码过程呢?这些其实是一个巨大的技术挑战。 但是我们确实在离线语音上做到了,我们现在整个的离线语音的效果已经超过了90%的初步使用门槛。而且,我们还做到了对网络状况做智能的判断,确保在线和离线无缝的结合。 刚才提到为什么通用效果达到一定门槛之后就很难再突破?其实这里有个人差异的部分在里面,有环境的影响在里面。因为我们实际使用语音,并不是那么理想化的。 什么叫理想化?就是不但我的环境要足够地安静,我的普通话也要足够的标准。但是,平时我们实际使用并不是这样的,我们的环境有很多噪声的干扰,而且我们每个多多少少都会带一点口音。 3.个性化语音 所以,这些问题会导致我们的通用识别有一些错误。对于这种错误,我们针对性的方案是考虑去做一些个人学习的部分。 (编辑:ASP站长网) |