连续语音识别的稳健性技术研究

连续语音识别的稳健性技术研究

论文摘要

说话人差异,信道失真和背景噪声导致训练环境和测试环境不匹配,严重影响了非特定人连续语音识别系统的性能。为提高中文连续语音识别系统的稳健性和自适应能力,本文从信号空间、特征空间和模型空间三个方面对说话人归一化、语音增强、端点检测、特征补偿和不确定解码等关键技术进行了深入研究和分析,提出了一些新的思路和方法,并以大量的实验予以证明。本文主要完成了如下工作: 1.将双线性频率弯折方法引入到声道长度归一化中。传统的频率弯折方法存在声道模型假设过于简单,变换后信号频谱带宽改变的问题。本文根据双线性变换中低通滤波器截止频率的映射公式,求出对齐不同说话人或人群第三共振峰的频率弯折因子。利用该频率弯折因子,对Mel滤波器组的位置和宽度进行双线性变换,得到声道长度归一化的特征矢量。该方法避免了对弯折因子的线性搜索,同时还利用了双线性变换使弯折频谱连续且无带宽改变的优点。实验证明,该方法是一种快速的、尤其适用于无监督模式下的稳健性方法。语音特征参数经过声道长度归一化后,在孤立词识别中,成年男性语料训练的基线系统对成年女性语料的识别率从71.50%提高到了91.00%,对儿童语料的识别率从71.00%提高到了84.00%;在连续语音识别中,男性语料训练的HMM声学模型参数集对女性语料的识别率从13.91%提高到了50.56%。 2.采用高斯混合模型(Gaussian Mixture Model,GMM)分类器对测试语句的信道环境进行分类。在多信道环境下进行语音识别时,当基线系统的信道环境与测试语句的信道环境匹配,识别率要明显高于用某一种信道语料或多种信道语料混合训练的基线系统的识别率。如果用各信道的语料分别建立一个GMM模型,信道的差别就转而体现在各GMM的差别上,且具有可分性。本文用各电话信道的洲练语料训练出相应的GMM信道模型和HMM声学模型,在识别时候,对测试语句进行信道分类,选择相应信道下的HMM声学模型对该语句进行识别。实验结果表明,该方法能有效提高多信道环境下的语音识别率。 3.推导了一种基于离散余弦变换和听觉掩蔽效应的子空间降噪算法。本文采用离散余弦变换来逼近本征分解中的Karhunen-Loeve变换,用基于Johnston掩蔽模型的感知滤波器对降噪后的语音进行后置滤波。该方法利用基于离散余弦变换的本征分解快速算法,可将运算复杂度O(N3)减少到N2,同时能有效地抑制残差噪声。 4.提出了特征空间能量熵的定义。当背景噪声为有色噪声或噪声能量可变时,传统的语音端点检测方法往往失效。带噪语音的空间可分为正交的信号加噪声子空间和噪声子空间。语音信号是由确定性的非线性动力系统产生,所以它的能量将集中在信号加噪声子空间。而随机噪声的能量在整个带噪语音空间中近似均匀分布。因此语音和噪声具有不同的空间能量分布,有着不同的空间能量熵。本文对语音信号的协方差矩阵进行本征分解,由特征值求出信号在特征空间能量概率分布,提出了特征空间能量熵的

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 语音识别的意义
  • 1.2 语音识别简史和国内外发展现状
  • 1.3 稳健性语音识别
  • 1.4 论文的主要内容
  • 第二章 连续语音识别的整体模型
  • 2.1 语音学基础
  • 2.2 实验用语音库
  • 2.2.1 中文语音语料库的音节切割和标识
  • 2.2.2 噪声语料库
  • 2.3 连续语音识别整体模型
  • 2.4 特征参数的提取
  • 2.5 声学模型
  • 2.5.1 识别单元选取
  • 2.5.2 HMM模型
  • 2.6 语言模型
  • 2.6.1 N-gram模型的平滑语言模型
  • 2.6.2 N-gram模型的复杂度计算
  • 2.7 音字转换
  • 2.8 汉语连续语音识别的研究平台
  • 2.8.1 研究平台的功能与界面
  • 2.8.2 连续语音识别结果
  • 2.9 本章小结
  • 第三章 说话人归一化技术
  • 3.1 声道长度归一化
  • 3.1.1 频率折叠的方法
  • 3.1.2 频率折叠因子的估计
  • 3.1.3 共振峰频率的计算
  • 3.1.4 基于巴克双线性变换的频率折叠
  • 3.2 基于双线性变换的声道长度归一化
  • 3.2.1 双线性变换
  • 3.2.2 分段双线性变换
  • 3.2.3 全通变换
  • 3.3 实验与分析
  • 3.3.1 声道长度归一化技术在孤立词识别中的应用
  • 3.3.2 声道长度归一化技术在连续语音识别中的应用
  • 3.4 本章小结
  • 第四章 信道分类与语音增强技术
  • 4.1 基于GMM的电话信道分类
  • 4.1.1 电话信道下的连续语音识别
  • 4.1.2 信道环境的分类分析
  • 4.1.3 GMM信道分类和连续语音识别系统
  • 4.2 语音增强
  • 4.2.1 多带谱减法
  • 4.2.2 短时谱估计
  • 4.2.3 瞬时维纳滤波
  • 4.2.4 子空间法
  • 4.3 信号子空间和听觉掩蔽效应的联合降噪
  • 4.3.1 基于DCT的子空间降噪
  • 4.3.2 基于听觉掩蔽效应的语音增强
  • 4.3.3 子空间降噪和后置感知滤波
  • 4.4 语音降噪算法的性能评估
  • 4.4.1 分段信噪比
  • 4.4.2 加权谱斜率测度
  • 4.4.3 实验结果
  • 4.5 本章小结
  • 第五章 端点检测
  • 5.1 谱熵
  • 5.2 特征空间能量熵
  • 5.2.1 特征空间能量熵的定义
  • 5.2.2 能量可变噪声环境下的话音检测
  • 5.2.3 有色噪声环境下的特征空间能量熵
  • 5.3 实验与分析
  • 5.3.1 和谱熵的结果比较
  • 5.3.2 话音检测在孤立词识别中的应用
  • 5.3.3 对实际连续语音信号的话音检测
  • 5.3.4 门限选取
  • 5.4 本章小结
  • 第六章 基于概率模型的特征补偿
  • 6.1 非高斯概率模型的推理
  • 6.1.1 观测矢量的概率生成模型
  • 6.1.2 矢量Taylor级数展开
  • 6.1.3 联合高斯混合分布
  • 6.1.4 Algonquin算法
  • 6.1.5 贝叶斯去噪
  • 6.2 特征补偿与最优化原理
  • 6.2.1 四种特征补偿算法的通用表达式
  • 6.2.2 基于Laplace方法的推理
  • 6.3 实验与分析
  • 6.4 本章小结
  • 第七章 不确定性解码
  • 7.1 预测误差对特征分类的影响
  • 7.2 基于p(y|s)的不确定性解码
  • 7.2.1 基于SPLICE的不确定性解码
  • 7.2.2 基于联合高斯分布的不确定性解码
  • 7.2.3 基于0阶Taylor级数展开的不确定性解码
  • 7.3 基于p(x|s)的不确定性解码
  • 7.4 实验与分析
  • 7.5 本章小结
  • 第八章 基于语音增强、特征补偿和不确定性解码的联合算法
  • 8.1 特征补偿的误差分析
  • 8.2 联合补偿算法
  • 8.3 实验与分析
  • 8.4 本章小结
  • 结束语
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    • [1].连续语音识别技术及其应用前景分析[J]. 数码世界 2016(01)
    • [2].MRCPv2应用于实时连续语音识别的研究[J]. 科技创业月刊 2016(03)
    • [3].基于瓶颈特征的藏语拉萨话连续语音识别研究[J]. 北京大学学报(自然科学版) 2018(02)
    • [4].连续语音识别技术及其应用前景分析[J]. 网络安全技术与应用 2014(08)
    • [5].试分析连续语音识别中的关键技术[J]. 信息与电脑(理论版) 2011(06)
    • [6].关于连续语音识别率优化仿真研究[J]. 计算机仿真 2016(03)
    • [7].基于区别特征系统的连续语音识别模型研究[J]. 合肥学院学报(自然科学版) 2014(01)
    • [8].大词汇量连续语音识别中搜索空间的表示及相关搜索方法的研究进展[J]. 计算机科学 2008(02)
    • [9].汉语连续语音识别结果评价算法研究[J]. 中国通信 2010(02)
    • [10].基于隐马尔可夫模型的维吾尔语连续语音识别系统[J]. 计算机应用 2009(07)
    • [11].面向大词汇量的维吾尔语连续语音识别研究[J]. 计算机工程与应用 2013(09)
    • [12].汉语大词汇量连续语音识别系统[J]. 科学中国人 2008(11)
    • [13].嵌入式语音识别系统性能分析[J]. 微计算机应用 2008(07)
    • [14].走在开复的情怀里[J]. 青年教师 2009(02)
    • [15].基于音节的维吾尔语大词汇连续语音识别系统[J]. 清华大学学报(自然科学版) 2013(06)
    • [16].汉语大词汇量连续语音识别系统研究进展[J]. 中文信息学报 2009(01)
    • [17].高噪声背景下舰船指挥舱大词汇量连续语音识别方法[J]. 舰船科学技术 2019(08)
    • [18].一种联合语种识别的新型大词汇量连续语音识别算法[J]. 自动化学报 2012(03)
    • [19].基于HMM的黔东南少数民族地区苗语连续语音识别系统研究[J]. 电脑知识与技术 2017(31)
    • [20].基于混合DBNN-BLSTM模型的大词汇量连续语音识别[J]. 纺织高校基础科学学报 2018(01)
    • [21].维吾尔语连续语音识别技术研究[J]. 现代计算机(专业版) 2010(01)
    • [22].基于多流多状态动态贝叶斯网络的音视频连续语音识别[J]. 电子与信息学报 2008(12)
    • [23].基于ANN/HMM混合模型汉语大词表连续语音识别系统[J]. 智能计算机与应用 2012(05)
    • [24].基于词网模型的连续语音识别系统MYASR的设计与开发[J]. 信息与电脑(理论版) 2011(24)
    • [25].基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究[J]. 西北工业大学学报 2008(02)
    • [26].基于多流动态贝叶斯网络的音视频连续语音识别[J]. 西北工业大学学报 2008(04)
    • [27].判别式训练方法在连续语音识别中的应用[J]. 大众科技 2009(12)
    • [28].中文连续语音识别系统音素建模单元集的构建[J]. 清华大学学报(自然科学版) 2011(09)
    • [29].语料资源缺乏的连续语音识别方法的研究[J]. 自动化学报 2010(04)
    • [30].基于Transformer的越南语连续语音识别[J]. 信息工程大学学报 2020(02)

    标签:;  ;  ;  ;  ;  ;  ;  

    连续语音识别的稳健性技术研究
    下载Doc文档

    猜你喜欢