语音识别中的环境补偿研究

语音识别中的环境补偿研究

论文摘要

语音识别技术虽然经过多年的积累已经得到很大的发展,但是还存在诸多问题,特别是语音识别系统环境鲁棒性问题已经严重制约了语音识别系统的应用和发展。如何使系统不受周围环境噪声的影响,提高系统的鲁棒性,已经成为亟待解决的关键问题之一。目前的一些鲁棒性环境补偿方法具体可分为两大类:前端处理方法和后端(声学模型)处理方法。近年来,基于统计模型的环境补偿方法受到极大的关注,已经成功运用于前端和后端处理中。本文将在搭建的非特定人大词汇量连续语音识别系统平台上,对这种环境补偿方法进行深入的研究。所使用的连续语音识别系统由以下三个开源工具构筑:剑桥大学开发的HTK声学模型训练工具、卡内基梅隆大学和剑桥大学联合开发的CMU-CamToolkit统计语言模型工具包、日本京都大学和日本IPA(Information-technology Promotion Agency)联合开发的Julius识别器。 本文的具体工作与创新包括以下几个方面: 1、对噪声干扰的过程进行了深入的研究,建立了时域、频域、对数谱域和倒谱域环境模型。 2、构筑了基于batch EM噪声估计的特征补偿算法。针对两种定义不同的EM辅助函数,从Bayes理论出发,推导了两种不同的基于MAP的batch EM算法。 3、采用了基于sequential EM噪声估计方法的特征补偿算法,解决了语音识别系统在非平稳环境下的环境鲁棒性问题。假设噪声环境的先验信息服从单一高斯分布,sequential EM噪声估计方法也可以在MAP框架下展开。 4、提出了一种基于多次解码技术的声学模型补偿方法,解决了

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 符号说明
  • 第一章 绪论
  • 1.1 语音识别发展历史
  • 1.2 语音识别原理
  • 1.3 基本框架
  • 1.3.1 声学特征提取
  • 1.3.2 隐马尔科夫模型(HMM)
  • 1.3.3 声学模型
  • 1.3.4 语言模型
  • 1.3.5 解码器
  • 1.4 存在的问题
  • 1.4.1 说话人因素
  • 1.4.2 周围环境因素
  • 1.5 论文的研究意义、工作内容
  • 第二章 鲁棒语音识别技术
  • 2.1 环境鲁棒性处理
  • 2.2 前端处理技术
  • 2.2.1 环境鲁棒性特征
  • 2.2.2 谱减法
  • 2.2.3 维纳(Wiener)滤波
  • 2.2.4 基于数据驱动的补偿方法
  • 2.2.5 基于统计模型的补偿方法
  • 2.2.6 倒谱归一化(CMN)
  • 2.3 后端处理技术
  • 2.3.1 鉴别性训练技术
  • 2.3.2 说话人自适应技术
  • 2.3.2.1 基于变换的方法
  • 2.3.2.2 基于MAP的算法
  • 2.3.2.3 混合方法
  • 2.3.3 环境自适应技术
  • 2.4 环境模型描述
  • 2.5 语音污染分析
  • 2.6 小结
  • 第三章 平稳噪声环境下基于 GMM的特征补偿算法
  • 3.1 引言
  • 3.2 对数谱域特征概率描述
  • 3.2.1 概率假设
  • 3.2.2 纯净概率模型获取
  • 3.2.3 含噪语音概率分布
  • 3.3 倒谱域特征概率描述
  • 3.4 环境参数估计
  • 3.4.1 MAP估计
  • 3.4.1.1 噪声估计(1)
  • 3.4.1.2 噪声估计(2)
  • 3.4.2 纯净语音估计
  • 3.5 实验
  • 3.5.1 基线系统
  • 3.5.2 基于 GMM的对数谱补偿与 CMN补偿方法
  • 3.5.3 模型训练和补偿对比
  • 3.5.4 噪声估计方法对比
  • 3.5.5 ML与 MAP噪声估计对比
  • 3.6 小结
  • 第四章 非平稳噪声环境下基于 GMM的特征补偿算法
  • 4.1 引言
  • 4.2 噪声参数估计
  • 4.3 算法步骤
  • 4.4 实验
  • 4.4.1 batch EM与sequential EM比较(MAP)
  • 4.4.2 ML估计与 MAP估计比较
  • 4.5 小结
  • 第五章 基于多次解码的声学模型补偿技术
  • 5.1 引言
  • 5.2 统计模型描述
  • 5.3 噪声模型估计
  • 5.3.1 估计方法(1)
  • 5.3.2 估计方法(2)
  • 5.4 模型组合
  • 5.5 声学模型补偿框架
  • 5.6 实验
  • 5.6.1 实验结果
  • 5.6.2 模型补偿与特征补偿方法相比
  • 5.6.3 ML估计与 MAP估计相比
  • 5.7 小结
  • 第六章 基于多次解码的改进型声学模型补偿技术
  • 6.1 引言
  • 6.2 联合补偿静态 HMM倒谱参数
  • 6.3 实验
  • 6.3.1 噪声估计正确性比较
  • 6.3.2 解码最佳得分对比
  • 6.3.3 两次解码结果对比
  • 6.3.4 声学模型补偿方法对比
  • 6.4 小结
  • 第七章 基于多次解码的混合补偿技术
  • 7.1 引言
  • 7.2 环境补偿的三种策略
  • 7.3 混合补偿
  • 7.4 实验
  • 7.4.1 模拟噪声环境
  • 7.4.2 真实噪声环境
  • 7.5 小结
  • 第八章 结论与展望
  • 8.1 研究工作
  • 8.2 展望
  • 参考文献
  • 附录1
  • 附录2
  • 博士期间发表的论文
  • 致谢
  • 相关论文文献

    • [1].人工智能下深度学习的语音识别方法分析[J]. 计算机产品与流通 2020(06)
    • [2].基于语音识别的演讲教学系统[J]. 计算机应用 2020(S1)
    • [3].人工智能下深度学习的语音识别方法分析[J]. 电子技术与软件工程 2020(11)
    • [4].语音识别声控小车设计[J]. 中国科技信息 2019(Z1)
    • [5].语音识别大揭秘:计算机如何处理声音?[J]. 中国新通信 2019(04)
    • [6].关于深度学习的语音识别应用研究[J]. 科技经济导刊 2019(12)
    • [7].关于语音识别在空调上的应用与改善[J]. 日用电器 2019(07)
    • [8].语音识别专利技术综述[J]. 河南科技 2019(24)
    • [9].数字语音识别与合成[J]. 电子世界 2019(15)
    • [10].浅谈语音识别[J]. 内蒙古科技与经济 2019(18)
    • [11].基于智能声控需求的语音识别研究[J]. 通讯世界 2019(10)
    • [12].语音识别64年大突破[J]. 机器人产业 2016(06)
    • [13].语音识别为何“叫好不叫座”?[J]. 通信世界 2016(16)
    • [14].语音识别的未来之路[J]. 通信世界 2016(16)
    • [15].动动嘴 让文字自动输入[J]. 电脑爱好者(普及版) 2010(11)
    • [16].带着使命感出发[J]. 英语学习 2017(01)
    • [17].荣威eRX5静态体验 “人性化”语音识别是亮点[J]. 新能源汽车新闻 2017(01)
    • [18].语音识别老祖宗[J]. 经营者(汽车商业评论) 2017(03)
    • [19].智能电视,语音识别或成突破口[J]. 消费指南 2017(05)
    • [20].宝马 用科技打造“未来之家”[J]. 中国汽车市场 2016(11)
    • [21].小学生单词语音识别技能培养研究[J]. 教师博览(科研版) 2017(04)
    • [22].语音识别,或是人工智能下一“风口”[J]. 晚霞 2017(06)
    • [23].一种低成本语音识别解决方案[J]. 通信技术 2019(12)
    • [24].视频会议系统智能语音识别技术应用研究[J]. 数字技术与应用 2020(05)
    • [25].简述语音识别的实现过程[J]. 科技传播 2019(02)
    • [26].基于深度学习的语音识别方法研究[J]. 智能计算机与应用 2019(02)
    • [27].远场语音识别方法研究[J]. 信息技术与标准化 2018(08)
    • [28].基于深度学习的语音识别方法[J]. 电子技术与软件工程 2019(08)
    • [29].石油石化设备巡检小车语音识别与控制系统设计与实现[J]. 电子设计工程 2017(22)
    • [30].语音识别专利技术发展现状与未来趋势[J]. 中国发明与专利 2017(S1)

    标签:;  ;  ;  ;  ;  

    语音识别中的环境补偿研究
    下载Doc文档

    猜你喜欢