设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

发布时间:2019-01-22 04:58 所属栏目:19 来源:鄢志杰、薛少飞、张仕良、郑昊、雷鸣
导读:阿里妹导读:语音识别技术作为人工智能技术中的重要组成部分,成为影响人机交互的核心组件之一,从各种智能家用 IoT 设备的语音交互能力,到公共服务、智慧政务等场合的应用,语音识别技术正在影响着人们生活的方方面面。 本文将全面介绍阿里云语音识别技

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

阿里妹导读:语音识别技术作为人工智能技术中的重要组成部分,成为影响人机交互的核心组件之一,从各种智能家用 IoT 设备的语音交互能力,到公共服务、智慧政务等场合的应用,语音识别技术正在影响着人们生活的方方面面。

本文将全面介绍阿里云语音识别技术中的重要模型端技术,希望和业界同仁交流探讨。

本文作者:

鄢志杰、薛少飞、张仕良、郑昊、雷鸣

声学模型、语言模型和解码器可以看作是现代语音识别系统最核心的三个组成部分。虽然最近有一些研究者尝试构建 End2end 的语音识别系统,但包含声学模型、语言模型和解码器的现代语音识别系统依然是当前最主流和使用最广泛的系统。在这其中,声学模型主要用来构建输入语音和输出声学单元之间的概率映射关系;语言模型用来描述不同字词之间的概率搭配关系,使得识别出的句子更像自然文本;解码器负责结合声学单元概率数值和语言模型在不同搭配上的打分进行筛选,最终得到最可能的识别结果。

随着近几年深度学习的火热,语音识别领域也纷纷投入深度学习的大潮之中。将传统 HMM-GMM 声学模型替换成 HMM-DNN 声学模型后,可以获得超过 20% 的相对提升,在传统N-Gram 语言模型基础上叠加 NN-LM 语言模型也可以获得进一步的提高。

在这过程中,声学模型由于更适合采用深度神经网络模型,从而受到研究者更多的关注。本文主要介绍阿里云语音识别技术中采用的声学模型技术和语言模型技术,包括 LC-BLSTM 声学模型、LFR-DFSMN 声学模型和 NN-LM 语言模型,其中 LC-BLSTM 是对传统 BLSTM 模型的一种改进,在保持了高准确率的同时,提供了低延时的特性;而 DFSMN 是一种新颖的非递归结构的神经网络却可以像 RNN 一样对信号的长时相关进行建模,同时可以获得更稳定的训练效果和更好的识别准确。NN-LM 语言模型是近年来在传统N-Gram 语言模型基础上获得的进一步改进。

Latency-Controlled BLSTM 模型

DNN(即 fully connected DNN)模型的优点在于通过增加神经网络的层数和节点数,扩展了网络对于复杂数据的抽象和建模能力,但同时 DNN 模型也存在一些不足,例如 DNN 中一般采用拼帧来考虑上下文相关信息对于当前语音帧的影响,这并不是反映语音序列之间相关性的最佳方法。自回归神经网络(RNN)在一定程度上解决了这个问题,它通过网络节点的自连接达到利用序列数据间相关性的目的。进一步有研究人员提出一种长短时记忆网络(LSTM-RNN),它可以有效减轻简单 RNN 容易出现的梯度爆炸和梯度消散问题,而后研究人员又对 LSTM 进行了扩展,使用双向长短时记忆网络(BLSTM-RNN)进行声学模型建模,以充分考虑上下文信息的影响。

BLSTM 模型可以有效地提升语音识别的准确率,相比于 DNN 模型,相对性能提升可以达到 15%-20%。但同时 BLSTM 模型也存在两个非常重要的问题:

  1. 句子级进行更新,模型的收敛速度通常较慢,并且由于存在大量的逐帧计算,无法有效发挥 GPU 等并行计算工具的计算能力,训练会非常耗时;

  2. 由于需要用到整句递归计算每一帧的后验概率,解码延迟和实时率无法得到有效保证,很难应用于实际服务。

对于这两个问题,学术界首先提出 Context-Sensitive-Chunk BLSTM(CSC-BLSTM)的方法加以解决,而此后又提出了 Latency Controlled BLSTM(LC-BLSTM)这一改进版本,更好、更高效地减轻了这两个问题。我们在此基础上采用 LC-BLSTM-DNN 混合结构配合多机多卡、16bit 量化等训练和优化方法进行声学模型建模,取得了相比于 DNN 模型约 17-24% 的相对识别错误率下降。

典型的 LSTM 节点结构由 3 个 gate 组成:input gate、forget gate、output gate 和一个 cell 组成,输入、输出节点以及 cell 同各个门之间都存在连接;inputgate、forget gate 同 cell 之间也存在连接,cell 内部还有自连接。这样通过控制不同门的状态,可以实现更好的长短时信息保存和误差传播。

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

LSTM 可以像 DNN 一样逐层堆积成为 DeepLSTM,为了更好地利用上下文信息,还可以使用 BLSTM 逐层堆积构造 Deep BLSTM,其结构如下图所示,网络中沿时间轴存在正向和反向两个信息传递过程,每一个时间帧的计算都依赖于前面所有时间帧和后面所有时间帧的计算结果,对于语音信号这种时序序列,该模型充分考虑了上下文对于当前语音帧的影响,能够极大提高音素状态的分类准确率。

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

然而由于标准的 BLSTM 是对整句语音数据进行建模,训练和解码过程存在收敛慢、延迟高、实时率低等问题,针对这些弊端我们采用了 Latency Controlled BLSTM 进行解决,与标准的 BLSTM 使用整句语音进行训练和解码不同,Latency Control BLSTM 使用类似 truncated BPTT 的更新方式,并在 cell 中间状态处理和数据使用上有着自己的特点,如下图所示,训练时每次使用一小段数据进行更新,数据由中心 chunk 和右向附加 chunk 构成,其中右向附加 chunk 只用于 cell 中间状态的计算,误差只在中心 chunk 上进行传播。

时间轴上正向移动的网络,前一个数据段在中心 chunk 结束时的 cell 中间状态被用于下一个数据段的初始状态,时间轴上反向移动的网络,每一个数据段开始时都将 cell 中间状态置为0。该方法可以很大程度上加快网络的收敛速度,并有助于得到更好的性能。解码阶段的数据处理与训练时基本相同,不同之处在于中心 chunk 和右向附加 chunk 的维度可以根据需求进行调节,并不必须与训练采用相同配置。

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

LFR-DFSMN 模型

FSMN 是近期被提出的一种网络结构,通过在前馈全连接神经网络(Feedforward Fully-connectedNeural Networks,FNN)的隐层添加一些可学习的记忆模块,从而可以有效地对信号的长时相关性进行建模。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读