基于动态贝叶斯网络的音视频语音识别模型研究

基于动态贝叶斯网络的音视频语音识别模型研究

论文摘要

动态贝叶斯网络(DBN),以其扩展性和对时间序列的强大描述、推导和学习能力,逐渐被应用于连续语音识别中。本文设计了一种能够适用于音频或视频语音的单流DBN模型,不仅能够给出单词级的识别结果,而且能科学地识别并切分出音素或视素的时间边界。具体工作如下: 首先研究了传统的基于隐马尔可夫模型(HMM)的连续语音识别系统的嵌入式训练和识别过程。录制连接数字音视频语音数据库,对音频流,提取了Mel倒谱特征(MFCC),对视频流,提取了三种唇部特征:1)静态几何特征;2)静态和差分动态几何特征;3)对静态和动态特征,按照音频帧率进行线性内插的几何特征。音频流识别实验表明,三音素HMM模型词识别率明显高于单音素HMM;对于视频流数据,第三种唇部特征的单词识别率明显高于其他两种唇部特征。 研究了动态贝叶斯网络的拓扑结构,概率推导公式,树型推理和边界推理算法、连接树算法。研究表明,DBN比HMM具有更好的通用性、显式性和扩展性。 研究并改进了整词-状态DBN(WS-DBN)模型,设计了基于整词-音素DBN(WP-DBN)的声学语音模型,和基于整词-视素DBN(WV-DBN)视觉语音模型,利用图模型工具包(GMTK),实现了音频和视频识别系统。WP-DBN和WV-DBN模型,充分体现了单词-音素(视素)组成及音素(视素)之间细微的概率转移关系,以及输出音素(视素)级切分结果的特性。 采用单词识别率、单词识别精度和音素(视素)切分得分率三种评价准则,比较了在各种信噪比数据下,WS-DBN、WP-DBN、WV-DBN、单音素HMM、三音素HMM及单视素HMM的识别和切分性能。音频实验结果表明,WP-DBN模型:1)对纯净语音,与三音素HMM具有相当的识别率;2)对带噪语音,比HMM具有更强的噪声鲁棒性。视频实验结果表明,线性内插后的唇部特征增加了单视素HMM的识别率,而前两种唇部特征足以满足WS-DBN和WV-DBN的建模需要。另外,基于DBN的模型比基于HMM的模型引入的单词插入误差更小,且WP-DBN和WV-DBN模型对音素和视素的切分时间边界与HMM切分时间边界相当。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 课题来源及研究意义
  • 1.2 DBN语音识别研究的历史及现状
  • 1.2.1 国内外研究历史
  • 1.2.2 现状分析及解决方案
  • 1.3 研究所做工作以及文章的安排
  • 第二章 基于HMM的音视频语音识别和切分
  • 2.1 隐马尔可夫模型
  • 2.1.1 定义
  • 2.1.2 推理算法
  • 2.1.3 学习算法
  • 2.2 基于HMM的连续语音识别系统
  • 2.2.1 系统架构
  • 2.2.2 基本建模单元选择
  • 2.2.3 基于HMM的语音训练和识别过程
  • 2.3 音视频语音识别实验
  • 2.3.1 实验环境和数据准备
  • 2.3.2 音视频语音特征提取
  • 2.3.3 音(视)频语音识别实验
  • 2.4 本章小结
  • 第三章 图模型和动态贝叶斯网络
  • 3.1 图模型
  • 3.2 贝叶斯网络
  • 3.3 动态贝叶斯网络
  • 3.3.1 定义
  • 3.3.2 推理算法
  • 3.3.3 学习算法
  • 3.4 HMM与DBN区别
  • 3.4.1 结构描述比较
  • 3.4.2 算法比较
  • 3.5 GMTK工具包简介
  • 3.5.1 GMTK主要特性
  • 3.5.2 GMTK语言(GMTKL)
  • 3.6 本章小结
  • 第四章 基于DBN的音视频语音识别和切分
  • 4.1 基于整词-状态的单流DBN语音识别模型
  • 4.2 基于整词-音素(视素)的单流DBN语音识别模型
  • 4.2.1 整词-音素(视素)DBN模型结构设计
  • 4.2.2 整词-状态DBN与整词-音素DBN模型结构比较
  • 4.2.3 整词-音素DBN模型各结点条件概率分布
  • 4.3 基于DBN的音视频语音识别系统
  • 4.3.1 模型脚本文件配置
  • 4.3.2 模型结构训练和识别过程
  • 4.4 音视频语音识别实验
  • 4.4.1 词识别率(Corr)统计结果及分析
  • 4.4.2 词识别精度(Acc)统计结果及分析
  • 4.5 音视频流切分实验
  • 4.5.1 切分评测标准
  • 4.5.2 切分结果及实例分析
  • 4.6 本章小结
  • 第五章 结论与展望
  • 5.1 工作总结
  • 5.2 讨论与展望
  • 参考文献
  • 发表论文和参加科研情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于动态贝叶斯网络的音视频语音识别模型研究
    下载Doc文档

    猜你喜欢