推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于递归神经网络的语音识别快速解码算法

更新时间:2019-12-25 10:44:22 大小:592K 上传用户:zhiyao6查看TA发布的资源 标签:神经网络语音识别 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

递归神经网络(Recurrent Neural Network,RNN)如今已经广泛用于自动语音识别(Automatic Speech Recognition,ASR)的声学建模。虽然其较传统的声学建模方法有很大优势,但相对较高的计算复杂度限制了这种神经网络的应用,特别是在实时应用场景中。由于递归神经网络采用的输入特征通常有较长的上下文,因此利用重叠信息来同时降低声学后验和令牌传递的时间复杂度成为可能。该文介绍了一种新的解码器结构,通过有规律抛弃存在重叠的帧来获得解码过程中的计算开销降低。特别地,这种方法可以直接用于原始的递归神经网络模型,只需对隐马尔可夫模型(Hidden Markov Model,HMM)结构做小的变动,这使得这种方法具有很高的灵活性。该文以时延神经网络为例验证了所提出的方法,证明该方法能够在精度损失相对较小的情况下取得2~4倍的加速比。


部分文件列表

文件名 大小
基于递归神经网络的语音识别快速解码算法.pdf 592K

部分页面预览

(完整内容请下载后查看)
39 卷第 4 期  
2017 4 月  
Vol.39No.4  
Apr. 2017  
Journal of Electronics & Information Technology  
基于递归神经网络的语音识别快速解码算法  
①②  
①②③  
张鹏远*①②  
潘接林  
颜永红  
(中国科学院声学研究所语言声学与内容理解重点实验室 北京 100190)  
(中国科学院大学 北京 100190)  
(中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 乌鲁木齐 830011)  
要:递归神经网络(Recurrent Neural Network, RNN)如今已经广泛用于自动语音识别(Automatic Speech  
Recognition, ASR)的声学建模。虽然其较传统的声学建模方法有很大优势,但相对较高的计算复杂度限制了这种  
神经网络的应用别是在实时应用场景中于递归神经网络采用的输入特征通常有较长的上下文此利用重  
叠信息来同时降低声学后验和令牌传递的时间复杂度成为可能文介绍了一种新的解码器结构过有规律抛弃  
存在重叠的帧来获得解码过程中的计算开销降低别地种方法可以直接用于原始的递归神经网络模型需  
对隐马尔可夫模型(Hidden Markov Model, HMM)结构做小的变动,这使得这种方法具有很高的灵活性。该文以时  
延神经网络为例验证了所提出的方法,证明该方法能够在精度损失相对较小的情况下取得 2~4 倍的加速比。  
关键词:语音识别;递归神经网络;解码器;跳帧计算  
中图分类号TP391.42  
DOI: 10.11999/JEIT160543  
文献标识码A  
文章编号1009-5896(2017)04-0930-08  
Fast Decoding Algorithm for Automatic Speech Recognition  
Based on Recurrent Neural Networks  
①②  
①②  
①②③  
ZHANG Ge  
ZHANG Pengyuan  
PAN Jielin  
YAN Yonghong  
(The Key Laboratory of Speech Acoustics and Content Understanding, Institute of Acoustics,  
Chinese Academy of Sciences, Beijing 100190, China)  
(University of Chinese Academy of Sciences, Beijing 100190, China)  
(Xinjiang Laboratory of Minority Speech and Language Information Processing, Xinjiang Technical Institute  
of Physics & Chemistry, Chinese Academy of Sciences, Urumqi 830011, China)  
Abstract: Recurrent Neural Networks (RNN) are widely used for acoustic modeling in Automatic Speech  
Recognition (ASR). Although RNNs show many advantages over traditional acoustic modeling methods, the  
inherent higher computational cost limits its usage, especially in real-time applications. Noticing that the features  
used by RNNs usually have relatively long acoustic contexts, it is possible to lower the computational complexity  
of both posterior calculation and token passing process with overlapped information. This paper introduces a novel  
decoder structure that drops the overlapped acoustic frames regularly, which leads to a significant computational  
cost reduction in the decoding process. Especially, the new approach can directly use the original RNNs with minor  
modifications on the HMM topology, which makes it flexible. In experiments on conversation telephone speech  
datasets, this approach achieves 2 to 4 times speedup with little relative accuracy reduction.  
Key words: Speech recognition; Recurrent Neural Network (RNN); Decoder; Frame skipping  
1 引言  
Neural Network, RNN),例如长短时记忆神经网络  
(Long Short Term Memory, LSTM)[14] 和时延神经  
网络(Time Delay Neural Network, TDNN)[57] 开始  
被用于自动语音识别的声学模型建模中,并取得了  
相对前馈神经网络更好的性能。产生这种优势的主  
要原因是递归神经网络的记忆能力能够涵盖整个语  
音序列的历史,而前馈神经网络则仅利用一个有限  
长度的窗内的上下文信息。  
近年来,不同种类的递归神经网络(Recurrent  
收稿日期2016-05-26回日期2017-01-09络出版2017-02-24  
*通信作者:张鹏远
基金项目家自然科学基金(U1536117, 11590770-4)家重点研  
发计划重点专项(2016YFB0801200, 2016YFB0801203)疆维吾尔  
自治区科技重大专项(2016A03007-1)  
Foundation Items: The National Natural Science Foundation of  
China (U1536117, 11590770-4), The National Key Research and  
Development Plan of China (2016YFB0801200, 2016YFB0801203),  
The Key Science and Technology Project of the Xinjiang Uygur  
Autonomous Region (2016A03007-1)  
时延神经网络是一种结构较为简单的递归神经  
网络。这种网络在保持与前馈神经网络相近的计算  
方法的同时,在隐层利用了更长的上下文,从而使  
4 期  
舸等: 基于递归神经网络的语音识别快速解码算法  
931  
网络获得利用更多上下文信息的能力。具体地说,  
前馈神经网络的隐层输入是当前帧上一层的输出,  
而时延神经网络的隐层输入是与当前帧相对应的一  
个帧序列在上一层的输出的顺序拼接。时延神经网  
络可以用更小的网络参数量获得超过前馈神经网络  
的性能,从而同时提高语音识别的精度和效率[5]。  
然而,递归神经网络的连接比前馈神经网络更  
复杂,因而带来了更大的计算量,导致解码速度更  
慢。这限制了递归神经网络在对实时性要求较高的  
任务中的应用。解决这一问题的直接方法是减小神  
经网络的尺寸如减少网络层数或各层的结点数。  
然而采用更小的神经网络进行解码将显然影响到系  
统的准确性,所以将网络保持在一个合理的尺寸是  
必要的[8, 9]。另一类方法是修改神经网络的结构,例  
如,时延神经网络的隐层采用不连续的上下文来减  
小计算量[5]种方法能够将计算复杂度降低到接近  
普通前馈神经网络。这些加速方法都通过对神经网  
络的修改来达到减小计算量的目的,因此不能使同  
一个网络满足不同的应用场景对精度和速度的要  
求。为了达到加速计算的目的,本文提出了一种跳  
帧计算的方法,从而直接减少神经网络需要计算的  
帧数,并保持神经网络本身的结构不变。这种方法  
能够在加速计算的同时保持递归神经网络在精度上  
的优势,同时由于不需要改变神经网络的结构,因  
而具有更好的灵活性。  
结构的调整;第 5 节提出了在跳帧系统的基础上进  
行可变帧率的令牌传递的方法;最后给出了实验结  
果及总结。  
2 基线系统结构  
语音识别的基本方程可以表示为  
m
W = argmaxW P X |W P  
(
W
)
}
(1)  
(
)
{
P  
(
W
)
表示语言模型分数P X |W 表示声学  
(
)
模型分数[11]。对于本文中采用的解码器结构,声学  
模型分数由深度神经网络给出,而语言模型分数由  
加 权 有 限 状 态 转 换 器 (Weighted Finite-State  
Transducer, WFST)提供。  
本文采用的解码器解码过程如下:输入的语音  
信号被转换为由若干帧组成的特征序列,然后这些  
特征被输入到时延神经网络中,获得每一帧对应的  
声学模型后验概率。根据当前帧的声学模型后验概  
率和语言模型后验概率,解码器在动态加载 HMM  
WFST 上进行基于令牌传递算法的维特比剪枝  
搜索[12, 13],得到的最优路径表示了输入语音对应的  
识别结果们使用的 WFST 输入是上下文相关的  
三音子,输出是识别词,神经网络的输出与 HMM  
状态一一对应,HMM 状态到相应三音子的映射在  
解码过程中动态进行[11]。为了在解码过程中控制搜  
索空间的规模,以调节解码速度和精度的平衡,我  
们采用多种剪枝策略以去除可能性较低的搜索路  
[13]  
由于在语音识别中,语音信号的帧移通常足够  
短,用当前帧的相邻帧的声学后验概率来预测当前  
帧的声学后验概率是合理的[10]。实验证明,按照一  
个较小的比例对语音序列的帧进行顺序采样,就足  
以表达整个语音序列的声学信息。进一步,我们研  
究了在解码的令牌传递过程中同样省略一些帧的可  
能性,并证明这种方法可以在保持识别性能基本不  
变的情况下将系统整体速度提升若干倍。在采用这  
种方法时,虽然语音序列的声学信息得到足够的保  
存,但省略一些帧会导致声学模型得分的动态范围  
发生变化而影响到系统的其他配置参数外,  
实验中我们发现,声学模型单元对应的隐马尔可夫  
模型(Hidden Markov Model, HMM)结构也需要做  
出调整,以应对跳帧对令牌传递路径的要求。  
本文在以时延神经网络为例的递归神经网络上  
进行了实验,证明跳帧方法可以简单地应用于递归  
神经网络,并根据任务需要调节系统精度和效率之  
间的平衡。本文的其它部分是这样安排的:第 2 节  
首先介绍了所采用的解码系统基本结构;第 3 节描  
述了跳帧方法的基础版本帧异步方法;第 4 节重点  
叙述对跳帧方法的分析和得分修正,以及对 HMM  
3 帧异步方法  
在一般的基于递归神经网络的语音识别系统  
中,神经网络的输入通常具有一个较长的上下文,  
用于计算输入窗口中间帧的声学模型后验概率。因  
此,在神经网络的计算中,相邻帧的计算窗口有很  
长的重叠。从而,有可能通过当前帧 t 的前若干帧  
t K,K = 1,2,"来预测当前帧的声学模型后验概  
率。最直接的概率预测方式是对相邻的两帧,其奇  
数帧的后验概率采用前一个偶数帧的后验概率,公  
式为[10]  
p
(
2t +1  
)
= p  
(2t  
)
, t = 0,1,"  
(2)  
考虑到语音信号是短时平稳的,相邻帧的声学  
模型后验概率应该相近,因此这种预测方式是合理  
的。进一步,由于输入窗口足够长,可以认为从每  
3 帧或每 4 帧中选取一帧,以这一帧的概率为这些  
帧的概率,也是合理的。实验证明这种方法可以获  
得和一般的系统相近的精度。下文中我们将从连续  
n 帧中选取第 1 帧用于计算声学模型后验概率,  
并复制作为其余 n -1帧概率的方法称作 n-帧异步方  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载