设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

60年技术简史,带你读懂AI的前世今生(5)

发布时间:2019-07-08 17:52 所属栏目:19 来源:佚名
导读:自然语言处理的任务太多了,除了机器翻译等少数直接面向应用并且有很强实际需求的任务有比较多的数据外,大部分任务的标注数据非常有限。和ImageNet这种上百万的标注数据集或者语音识别几千小时的标注数据集相比,

自然语言处理的任务太多了,除了机器翻译等少数直接面向应用并且有很强实际需求的任务有比较多的数据外,大部分任务的标注数据非常有限。和ImageNet这种上百万的标注数据集或者语音识别几千小时的标注数据集相比,很多自然语言处理的标注数据都是在几万最多在几十万这样的数量级。这是由自然语言处理的特点决定的,因为它是跟具体业务相关的。因此自然语言处理领域一直急需解决的就是怎么从未标注的数据里学习出有用的知识,这些知识包括语法的、语义的和世界知识。

Mikolov等人2013年在《Efficient estimation of word representations in vector space》和《Distributed representations of words and phrases and their compositionality》开始了这段征程。他们提出的Word2Vec可以简单高效的学习出很好的词向量,如下图所示。

60年技术简史,带你读懂AI的前世今生


图:Word2Vec的词向量

从上图我们可以发现它确实学到了一些语义知识,通过向量计算可以得到类似”man-woman=king-queen”。

我们可以把这些词向量作为其它任务的初始值。如果下游任务数据量很少,我们甚至可以固定住这些预训练的词向量,然后只调整更上层的参数。Pennington等人在2014年的论文《Glove: Global vectors for word representation》里提出了GloVe模型。

但是Word2Vec无法考虑上下文的信息,比如”bank”有银行和水边的意思。但是它无法判断具体在某个句子里到底是哪个意思,因此它只能把这两个语义同时编码进这个向量里。但是在下游应用中的具体某个句子里,只有一个语义是需要的。当然也有尝试解决多义词的问题,比如Neelakantan等人在2014年的《Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space》,但都不是很成功。

另外一种解决上下文的工具就是RNN。但是普通的RNN有梯度消失的问题,因此更常用的是LSTM。LSTM早在1997年就被Sepp Hochreiter和Jürgen Schmidhuber提出了。在2016年前后才大量被用于自然语言处理任务,成为当时文本处理的”事实”标准——大家认为任何一个任务首先应该就使用LSTM。当然LSTM的其它变体以及新提出的GRU也得到广泛的应用。RNN除了能够学习上下文的语义关系,理论上还能解决长距离的语义依赖关系(当然即使引入了门的机制,实际上太长的语义关系还是很难学习)。

60年技术简史,带你读懂AI的前世今生


图:LSTM

很多NLP的输入是一个序列,输出也是一个序列,而且它们之间并没有严格的顺序和对应关系。为了解决这个问题,seq2seq模型被提了出来。最终使用seq2seq的是机器翻译。Sutskever等人在2014年的论文《Sequence to Sequence Learning with Neural Networks》首次使用了seq2seq模型来做机器翻译,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》里首次把Attention机制引入了机器翻译,从而可以提高长句子的翻译效果。而Google在论文里《Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》介绍了他们实际系统中使用神经网络机器翻译的一些经验,这是首次在业界应用的神经网络翻译系统。

60年技术简史,带你读懂AI的前世今生


图:LSTM

seq2seq加Attention成为了解决很多问题的标准方法,包括摘要、问答甚至对话系统开始流行这种End-to-End的seq2seq模型。

Google2017年在《Attention is All You Need》更是把Attention机制推向了极致,它提出了Transformer模型。因为Attention相对于RNN来说可以更好的并行,而且它的Self-Attention机制可以同时编码上下文的信息,它在机器翻译的WMT14数据上取得了第一的成绩。

60年技术简史,带你读懂AI的前世今生


图:Neural Machine Translation

不过其实和Attention同时流行的还包括”Memory”,这大概是2015年的时候,当时流行”Reason, Attention and Memory”(简称RAM),我记得当年NIPS还有个RAM的workshop。Memory就是把LSTM的Cell进一步抽象,变成一种存储机制,就行计算机的内存,然后提出了很多复杂的模型,包括Neural Turing Machine(NTM)等等,包括让神经网络自动学习出排序等算法。当时也火过一阵,但最终并没有解决什么实际问题。

虽然RNN/Transformer可以学习出上下文语义关系,但是除了在机器翻译等少量任务外,大部分任务的训练数据都很少。因此怎么能够使用无监督的语料学习出很好的上下文语义关系就成为非常重要的课题。这个方向从2018年开始一直持续到现在,包括Elmo、OpenAI GPT、BERT和XLNet等,这些模型一次又一次的刷榜,引起了极大的关注。

ELMo是Embeddings from Language Models的缩写,意思就是语言模型得到的(句子)Embedding。另外Elmo是美国儿童教育电视节目芝麻街(Sesame Street)里的小怪兽的名字。原始论文是《Deep contextualized word representations》,这个标题是很合适的,也就是用深度的Transformer模型来学习上下文相关的词表示。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读