吴军:未来20年,人工智能可能不会有巨大的发展!(3)
在那里,贾里尼克组建了阵容空前绝后强大的研究队伍。IBM从六十年代开始做一些语言识别,但是都不成功,到七十年代让贾里尼克负责语言识别等课题研究。 弗莱德里克.贾里尼克(Fred Jelinek) 因为贾里尼克是一个通信专家,所以他不把语音识别问题当做人工智能问题,而是当成通信问题。 其实又把语音识别问题拉回到原点,看看通信是什么。我把意思表达给你,你来理解我的信息。 我把想法在脑子里变成一串文字,这叫做信息的编码。 编码信息通过声音说出来,然后耳蜗把接收到的信息解码还原成电信号,电信号通过接收者大脑进行解码,接收者就知道对方的传递信息,这是信息解码的过程,是标准的通信的模型。 既然是标准的通信模型,就可以用通信的方式解决它。他用信源编码和信道编码两个模型来描述语音识别问题。 如果要把数学模型的参数算清楚就要用大量的数据去算。为什么这事在IBM能做成了呢?因为全世界当时只有IBM有数据。 IBM是商用机器公司,它是为各大公司提供计算机,大公司之间用计算机发电传,发传真。因此,IBM拥有大量商业电传文本,所以它做成这个事了。 换了一个思维方式解决问题以后得到了什么结果呢?在整个六七十年代,语音识别能识别十个数字,再加上几个简单的英文单词。 IBM最早想做一个语音控制的计算机,能够实现自动接线系统,连接、断开、转接、付费等等。 但是,当时识别不超过100个英文单词,错误率30%,没有办法用。 转换思路,用数据驱动方法解决问题能识别22000个英文单词,错误率从30%到下降到10%,就在短短几年间实现。 这就是工作方法和思维方式的重要性,思维方式常常比技术本身更重要。你沿着原来的老路用技术再走,也走不到前面去,就是一个死胡同。 但是当时的数据也仅仅只能解决语音识别的问题,不能解决图像处理问题,图像处理问题数据的绝对数量是语音识别的100倍。 所以当时是不可能的。后来,贾里尼克手下一个人提出机器翻译的模型,这个人叫彼德•布朗(Peter F. Brown)。 当时英语的翻译思路是走得通的,但是由于没有数据,翻译效果不好。 在没有互联网的情况下,世界上能找到的数据只有2个,一是各个国家都有的圣经,另一个是联合国几个官方语言之间的文件数据,数据都非常少。彼德•布朗的模型在当时没有得不到很好的结果。 很有意思的是彼德•布朗的论文是今天做机器翻译引用最多的论文,引用的高峰不是在九十年代刚刚发表论文的时候,而是在2000年以后当数据量大的时候。 那么,彼德•布朗是什么人呢?世界上最牛的投资基金叫文艺复兴,彼德•布朗原来是文艺复兴科技公司IT总监,现在担任文艺复兴的副总。 所以他后来就去预测股票了。由于缺乏数据,因此八九十年代人工智能进入了低谷。 到了2004年、2005年,人们看到一点曙光了。最先让大家觉得很兴奋的事机器翻译的水平基本上可以达到人的水平了。 Google有一个团队参加了美国国家标准化和技术研究所的测评,相当于中国标准化局的一次评测。 这一次评比的结果赢的是Google,跟第二名大概差5个百分点。 全世界科学家努力一年大概能提高0.5%,提高5%差不多10年。今天技术相差十年你们俩不在一个水准,差一代。 Google是第二个做这个事情的公司,凭什么一下子成为世界第一,而且是远远的第一名呢? 原因也很简单,Google把原来世界上做机器翻译最好的一个科学家请到了Google去。 为什么跳个槽,结果就提高了5个百分点呢?因为他用了别人一万倍的数据,就这么简单的一件事,算法没有变。 这就是为什么叫数据驱动的方法,也就是在这之后深度学习开始慢慢热门起来了。 基础的算法在七十年代已经奠定了,现在用了当年一万倍的计算资源,但是怎么用这些计算资源是一个本事。 我讲这些想是想告诉大家人工智能和我们人脑的智能完全无关,是一种基于数据驱动的机器学习方法。 如同鸟是振动翅膀来飞行,飞机是不振动翅膀飞行,实际上飞机飞行跟鸟类飞行没有太大关系。 飞机飞上天是人类对空气动力学的研究,而不是对鸟类的飞行进行研究。 今天了解人工智能是思考怎么让计算机这些钢铁等材料组成的盒子在回答问题的时候能超过人,而不是说研究人脑的结构。 有一个简单的方法判定人工智能是真还是假。如果说这个人工智能和认知科学有很深的关系,这是骗你的。 如同说发明了一个飞机,翅膀是可以振动的,是一样的道理。如果跟你讲有数据驱动的,数学模型怎么好基本上是真的。 四、人工智能发展的,好消息和消息人工智能发展到今天,好消息是说它得到了全世界的认可,LeCun、Hinton、Bengio得到了图灵奖。 坏消息是说从人类找到数据驱动方向的时候,人工智能用光了40年技术积累的红利,之所以今天有这个结果,是40年前的人在给你栽树, 40年前栽的树在今天开花结果了。 大家不要觉得人工智能突然发展这么快,会不会接下来20年又有一个巨大的加速?我告诉你不会的。 为什么?因为20年后产生巨大加速的事情,可以在今天的学术界预测。今天学术界所做的一些研究课题没有太多新的。 当今的科学家们比较努力,人数也多,大概也要20年才能积累出一个让人感觉非常兴奋、非常惊喜的理论基础。 好的是什么呢?因为这40年的成果在一些领域被证实了可以开花结果。 (编辑:ASP站长网) |