论文摘要
动态贝叶斯网络(DBN),以其扩展性和对时间序列的强大描述、推导和学习能力,逐渐被应用于连续语音识别中。本文设计了一种能够适用于音频或视频语音的单流DBN模型,不仅能够给出单词级的识别结果,而且能科学地识别并切分出音素或视素的时间边界。具体工作如下: 首先研究了传统的基于隐马尔可夫模型(HMM)的连续语音识别系统的嵌入式训练和识别过程。录制连接数字音视频语音数据库,对音频流,提取了Mel倒谱特征(MFCC),对视频流,提取了三种唇部特征:1)静态几何特征;2)静态和差分动态几何特征;3)对静态和动态特征,按照音频帧率进行线性内插的几何特征。音频流识别实验表明,三音素HMM模型词识别率明显高于单音素HMM;对于视频流数据,第三种唇部特征的单词识别率明显高于其他两种唇部特征。 研究了动态贝叶斯网络的拓扑结构,概率推导公式,树型推理和边界推理算法、连接树算法。研究表明,DBN比HMM具有更好的通用性、显式性和扩展性。 研究并改进了整词-状态DBN(WS-DBN)模型,设计了基于整词-音素DBN(WP-DBN)的声学语音模型,和基于整词-视素DBN(WV-DBN)视觉语音模型,利用图模型工具包(GMTK),实现了音频和视频识别系统。WP-DBN和WV-DBN模型,充分体现了单词-音素(视素)组成及音素(视素)之间细微的概率转移关系,以及输出音素(视素)级切分结果的特性。 采用单词识别率、单词识别精度和音素(视素)切分得分率三种评价准则,比较了在各种信噪比数据下,WS-DBN、WP-DBN、WV-DBN、单音素HMM、三音素HMM及单视素HMM的识别和切分性能。音频实验结果表明,WP-DBN模型:1)对纯净语音,与三音素HMM具有相当的识别率;2)对带噪语音,比HMM具有更强的噪声鲁棒性。视频实验结果表明,线性内插后的唇部特征增加了单视素HMM的识别率,而前两种唇部特征足以满足WS-DBN和WV-DBN的建模需要。另外,基于DBN的模型比基于HMM的模型引入的单词插入误差更小,且WP-DBN和WV-DBN模型对音素和视素的切分时间边界与HMM切分时间边界相当。