重磅公开！阿里语音识别模型端核心技术，让你“听”见未来(3)

发布时间：2019-01-22 04:58 所属栏目：19 来源：鄢志杰、薛少飞、张仕良、郑昊、雷鸣

导读：语言模型，顾名思义，对语言进行建模的模型。语言表达可以看作一串字符序列，不同的字符序列组合代表不同的含义，字符的单位可以是字或者词。语言模型的任务，可以看作是给定字符序列，如何估计该序列的概率，或者

语言模型，顾名思义，对语言进行建模的模型。语言表达可以看作一串字符序列，不同的字符序列组合代表不同的含义，字符的单位可以是字或者词。语言模型的任务，可以看作是给定字符序列，如何估计该序列的概率，或者说，如何估计该序列的合理性。

P (上海的工人师傅有力量)>P(上海的工人食腐有力量)

拿这句话做个例子。比如到底应该是“工人师傅有力量”，还是“工人食腐有力量”，哪句话更“合适”。我们容易判断左边这句的概率大一点。于是我们希望通过语言模型的建模，可以给出符合人类预期的概率分配。就像这句，“工人师傅”的概率，大于“工人食腐”的概率。

基于统计词频的传统N元文法模型，通过马尔可夫假设简化了模型结构和计算，通过计数的方式计算，通过查找的方式使用。拥有估计简单、性能稳定、计算快捷的优势，有超过三十年的使用历史。然而其马尔科夫假设强制截断建模长度，使得模型无法对较长的历史建模；基于词频的估计方式也使得模型不够平滑，对于低词频词汇估计不足。随着神经网络（Neural Networks，NNs）的第三次崛起，人们开始尝试通过 NN 来进行语言模型建模。

重磅公开！阿里语音识别模型端核心技术，让你“听”见未来

一个典型的建模结构是递归神经网络（recurrentneural networks，RNNs），其递归的结构理论上可以对无穷长序列进行建模，弥补了N元文法对于序列长度建模的不足；同时其各层间的全向连接也保证了建模的平滑。此外为了提升模型的性能，研究者们还尝试了通过长短时记忆（Long Short-Term Memory，，LSTM）结构来提升基本 RNN 本身建模能力的不足，进一步提升模型性能。

NN 用于大规模语言建模的系统中，需要面对一些问题，例如大词表带来的存储和计算增加。实际线上系统的词表往往比较大，而随着词表的增加，基本 RNN 结构的存储和计算量都会几何级数爆炸式增长。

为此，研究者们进行了一些尝试，压缩词典尺寸成了一个最直接的解决方案，一个经典的方法是词表聚类。该方法可以大幅压缩词表尺寸，但往往也会带来一定的性能衰减。更直接的一个想法是直接过滤掉低频词汇，这样依然会带来一定的性能衰减，据此有一个改进策略，我们发现真正制约速度性能的主要是输出层节点，输入层节点大，借助 projection 层可以很好解决，于是输入层采用大辞典，而仅对输出层词表进行抑制，这样不仅尽可能地降低了损失，同时过滤掉过低的词频，也有利于模型节点的充分训练，性能往往还会略有提升。

词表的压缩可以提升建模性能，降低计算量和存储量，但仅限于一定的量级，不可以无限制压缩，如何继续降低计算量依然是一个问题。一些方法被提了出来。例如 LightRNN，通过类似聚类的方式，利用 embedding 的思想，把词表映射到一个实值矩阵上，实际输出只需要矩阵的行加矩阵的列，计算量大概也能开个方。和节点数多一起造成计算量大的一个原因就是 softmax 输出，需要计算所有的节点求个和，然后得到分母。若是这个分母能保持一个常数，实际计算的时候就只算需要的节点，在测试环节就快的多了。

于是就有了正则项相关的方法，Variance Regularization，如果训练速度可以接受的话，这种方法在基本不损失模型正确性的情况下可以大幅提升前向计算速度；如果训练的时候也想提速，还可以考虑基于采样，sampling 的方法，比如 NCE、Importance Sampling、Black Sampling 等，本质上就是说，在训练的时候不计算全部节点，只计算正样本（也就是标签为 1 的节点），以及部分通过某种分布采样的到的负样本，避免高输出造成的计算缓慢。速度上提升还是很明显的。

从阿里云获得开发者模型定制能力

想象一个做智能电话客服或是智能会议系统的开发者，需要为他的系统接入语音识别（将语音转写为文字）的能力。摆在他面前的会是这样一个尴尬的局面：

一个选择是自己从零开始学做语音识别，这可能要花费大量的时间和金钱。毕竟人工智能这种事情，各大互联网巨头投入大量的人力、物力、财力，也要花较长的时间才能积累下技术；

第二个选择是用上述巨头们在互联网上提供的开箱即用的、one size fits all 的语音识别接口，时间是省下了，但语音转文字的准确率嘛，只能碰碰运气，毕竟巨头们也很忙，没有精力为你关注的场景进行优化。

那么问题来了：有没有一种手段能够以最小的投入获得业务上最佳的语音识别效果呢？答案是肯定的。

阿里云依托达摩院业界领先的语音交互智能，打破传统语音技术提供商的供给模式，在云计算时代让普通开发者也能够通过阿里云提供的语音识别云端自学习技术，获得定制优化自己所关心的业务场景的成套手段。阿里云让广大的开发者站在巨头的肩膀上，通过自主可控的自学习，在短时间内实现对语音识别系统应用从入门到精通，并在开发者关心的场景下轻松拥有业界顶尖的语音识别准确率。这就是云计算时代的语音识别技术全新的供给模式。

与其它人工智能技术一样，语音识别技术的关键在于算法、算力和数据三个方面。阿里云依托达摩院语音交互智能，近年来持续在世界前沿进行“算法”演进，近期还将最新的研究成果 DFSMN 声学模型开源，供全世界的研究者复现目前最佳的结果并进行持续提升。

（编辑：ASP站长网）