设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来(2)

发布时间:2019-01-22 04:58 所属栏目:19 来源:鄢志杰、薛少飞、张仕良、郑昊、雷鸣
导读:FSMN 相比于 LCBLSTM 不仅可以更加方便的控制时延,而且往往也能获得更好的性能,需要的计算资源也更少。但是标准的 FSMN 很难训练非常深层的结构,由于梯度消失问题导致训练效果不好。而深层结构的模型目前在很多

FSMN 相比于 LCBLSTM 不仅可以更加方便的控制时延,而且往往也能获得更好的性能,需要的计算资源也更少。但是标准的 FSMN 很难训练非常深层的结构,由于梯度消失问题导致训练效果不好。而深层结构的模型目前在很多领域被证明具有更强的建模能力。因而针对此我们提出了一种改进的 FSMN 模型,称之为深层的 FSMN(Deep FSMN, DFSMN)。

进一步的我们结合低帧率(Low Frame Rate,LFR)技术构建了一种高效的实时语音识别声学模型,相比于去年我们上线的 LFR-LCBLSTM 声学模型可以获得超过 20% 的相对性能提升,同时可以获得2-3 倍的训练以及解码的加速,可以显著的减少我们的系统实际应用时所需要的计算资源。

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

最早提出的 FSMN 的模型结构如上图(a)所示,其本质上是一个前馈全连接神经网络,通过在网络的某些隐层旁添加一些记忆模块(memory block)来对当前时刻周边的上下文信息进行建模,从而使得模型可以对时序信号的长时相关性进行建模。记忆模块采用如上图(b)所示的抽头延迟结构将当前时刻以及之前 N 个时刻的隐层输出通过一组系数编码得到一个固定的表达。

FSMN 的提出是受到数字信号处理中滤波器设计理论的启发:任何无限响应冲击(Infinite Impulse Response, IIR)滤波器可以采用高阶的有限冲击响应(FiniteImpulseResponse, FIR)滤波器进行近似。

从滤波器的角度出发,如上图(c)所示的 RNN 模型的循环层就可以看作如上图(d)的一阶 IIR 滤波器。而 FSMN 采用的采用如上图(b)所示的记忆模块可以看作是一个高阶的 FIR 滤波器。从而 FSMN 也可以像 RNN 一样有效的对信号的长时相关性进行建模,同时由于 FIR 滤波器相比于 IIR 滤波器更加稳定,因而 FSMN 相比于 RNN 训练上会更加简单和稳定。

根据记忆模块编码系数的选择,可以分为:

  • 标量 FSMN(sFSMN)

  • 矢量 FSMN(vFSMN)

sFSMN 和 vFSMN 顾名思义就是分别使用标量和矢量作为记忆模块的编码系数。

以上的 FSMN 只考虑了历史信息对当前时刻的影响,我们可以称之为单向的 FSMN。当我们同时考虑历史信息以及未来信息对当前时刻的影响时,我们可以将单向的 FSMN 进行扩展得到双向的 FSMN。

FSMN 相比于 FNN,需要将记忆模块的输出作为下一个隐层的额外输入,这样就会引入额外的模型参数。隐层包含的节点越多,则引入的参数越多。研究结合矩阵低秩分解(Low-rank matrix factorization)的思路,提出了一种改进的 FSMN 结构,称之为简洁的 FSMN(Compact FSMN,cFSMN)。下图是一个第l个隐层包含记忆模块的 cFSMN 的结构框图。

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

对于 cFSMN,通过在网络的隐层后添加一个低维度的线性投影层,并且将记忆模块添加在这些线性投影层上。进一步的,cFSMN 对记忆模块的编码公式进行了一些改变,通过将当前时刻的输出显式的添加到记忆模块的表达中,从而只需要将记忆模块的表达作为下一层的输入。这样可以有效的减少模型的参数量,加快网络的训练。

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

上图是我们进一步提出的 Deep-FSMN(DFSMN)的网络结构框图,其中左边第一个方框代表输入层,右边最后一个方框代表输出层。我们通过在 cFSMN 的记忆模块(红色框框表示)之间添加跳转连接(skip connection),从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中,高层记忆模块的梯度会直接赋值给低层的记忆模块,从而可以克服由于网络的深度造成的梯度消失问题,使得可以稳定的训练深层的网络。

相比于之前的 cFSMN,DFSMN 优势在于,通过跳转连接可以训练很深的网络。对于原来的 cFSMN,由于每个隐层已经通过矩阵的低秩分解拆分成了两层的结构,这样对于一个包含 4 层 cFSMN 层以及两个 DNN 层的网络,总共包含的层数将达到 13 层,从而采用更多的 cFSMN 层,会使得层数更多而使得训练出现梯度消失问题,导致训练的不稳定性。

我们提出的 DFSMN 通过跳转连接避免了深层网络的梯度消失问题,使得训练深层的网络变得稳定。需要说明的是,这里的跳转连接不仅可以加到相邻层之间,也可以加到不相邻层之间。跳转连接本身可以是线性变换,也可以是非线性变换。具体的实验我们可以实现训练包含数十层的 DFSMN 网络,并且相比于 cFSMN 可以获得显著的性能提升。

从最初的 FSMN 到 cFSMN 不仅可以有效的减少模型的参数,而且可以获得更好的性能。进一步的在 cFSMN 的基础上,我们提出的 DFSMN,可以更加显著的提升模型的性能。如下表是在一个 2000 小时的英文任务上基于 BLSTM,cFSMN,DFSMN 的声学模型性能对比。

从上表中可以看到,在 2000 小时这样的任务上,DFSMN 模型可以获得比 BLSTM 声学模型相对 14% 的错误率降低,显著提高了声学模型的性能。

传统的声学模型,输入的是每帧语音信号提取的声学特征,每帧语音的时长通常为 10ms,对于每个输入的语音帧信号会有相对应的一个输出目标。最近有研究提出一种低帧率(Low Frame Rate,LFR)建模方案:通过将相邻时刻的语音帧进行绑定作为输入,去预测这些语音帧的目标输出得到的一个平均输出目标。具体实验中可以实现三帧(或更多帧)拼接而不损失模型的性能。

从而可以将输入和输出减少到原来的三分之一甚至更多,可以极大的提升语音识别系统服务时声学得分的计算以及解码的效率。我们结合 LFR 和以上提出的 DFSMN,构建了基于 LFR-DFSMN 的语音识别声学模型,经过多组实验我们最终确定了采用一个包含 10 层 cFSMN 层 +2 层 DNN 的 DFSMN 作为声学模型,输入输出则采用 LFR,将帧率降低到原来的三分之一。识别结果和去年我们上线的最好的 LCBLSTM 基线比较如下表所示。

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

通过结合 LFR 技术,我们可以获得三倍的识别加速。从上表中可以看到,在实际工业规模应用上,LFR-DFSMN 模型比 LFR-LCBLSTM 模型可以获得 20% 的错误率下降,展示了对大规模数据更好的建模特性。

NN-LM 语言模型

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读