连续语音识别的稳健性技术研究

论文摘要

说话人差异，信道失真和背景噪声导致训练环境和测试环境不匹配，严重影响了非特定人连续语音识别系统的性能。为提高中文连续语音识别系统的稳健性和自适应能力，本文从信号空间、特征空间和模型空间三个方面对说话人归一化、语音增强、端点检测、特征补偿和不确定解码等关键技术进行了深入研究和分析，提出了一些新的思路和方法，并以大量的实验予以证明。本文主要完成了如下工作： 1．将双线性频率弯折方法引入到声道长度归一化中。传统的频率弯折方法存在声道模型假设过于简单，变换后信号频谱带宽改变的问题。本文根据双线性变换中低通滤波器截止频率的映射公式，求出对齐不同说话人或人群第三共振峰的频率弯折因子。利用该频率弯折因子，对Mel滤波器组的位置和宽度进行双线性变换，得到声道长度归一化的特征矢量。该方法避免了对弯折因子的线性搜索，同时还利用了双线性变换使弯折频谱连续且无带宽改变的优点。实验证明，该方法是一种快速的、尤其适用于无监督模式下的稳健性方法。语音特征参数经过声道长度归一化后，在孤立词识别中，成年男性语料训练的基线系统对成年女性语料的识别率从71.50％提高到了91.00％，对儿童语料的识别率从71.00％提高到了84.00％；在连续语音识别中，男性语料训练的HMM声学模型参数集对女性语料的识别率从13.91％提高到了50.56％。 2．采用高斯混合模型（Gaussian Mixture Model，GMM）分类器对测试语句的信道环境进行分类。在多信道环境下进行语音识别时，当基线系统的信道环境与测试语句的信道环境匹配，识别率要明显高于用某一种信道语料或多种信道语料混合训练的基线系统的识别率。如果用各信道的语料分别建立一个GMM模型，信道的差别就转而体现在各GMM的差别上，且具有可分性。本文用各电话信道的洲练语料训练出相应的GMM信道模型和HMM声学模型，在识别时候，对测试语句进行信道分类，选择相应信道下的HMM声学模型对该语句进行识别。实验结果表明，该方法能有效提高多信道环境下的语音识别率。 3．推导了一种基于离散余弦变换和听觉掩蔽效应的子空间降噪算法。本文采用离散余弦变换来逼近本征分解中的Karhunen-Loeve变换，用基于Johnston掩蔽模型的感知滤波器对降噪后的语音进行后置滤波。该方法利用基于离散余弦变换的本征分解快速算法，可将运算复杂度O（N3）减少到N2，同时能有效地抑制残差噪声。 4．提出了特征空间能量熵的定义。当背景噪声为有色噪声或噪声能量可变时，传统的语音端点检测方法往往失效。带噪语音的空间可分为正交的信号加噪声子空间和噪声子空间。语音信号是由确定性的非线性动力系统产生，所以它的能量将集中在信号加噪声子空间。而随机噪声的能量在整个带噪语音空间中近似均匀分布。因此语音和噪声具有不同的空间能量分布，有着不同的空间能量熵。本文对语音信号的协方差矩阵进行本征分解，由特征值求出信号在特征空间能量概率分布，提出了特征空间能量熵的

论文目录

摘要

ABSTRACT

第一章绪论

1.1 语音识别的意义

1.2 语音识别简史和国内外发展现状

1.3 稳健性语音识别

1.4 论文的主要内容

第二章连续语音识别的整体模型

2.1 语音学基础

2.2 实验用语音库

2.2.1 中文语音语料库的音节切割和标识

2.2.2 噪声语料库

2.3 连续语音识别整体模型

2.4 特征参数的提取

2.5 声学模型

2.5.1 识别单元选取

2.5.2 HMM模型

2.6 语言模型

2.6.1 N-gram模型的平滑语言模型

2.6.2 N-gram模型的复杂度计算

2.7 音字转换

2.8 汉语连续语音识别的研究平台

2.8.1 研究平台的功能与界面

2.8.2 连续语音识别结果

2.9 本章小结

第三章说话人归一化技术

3.1 声道长度归一化

3.1.1 频率折叠的方法

3.1.2 频率折叠因子的估计

3.1.3 共振峰频率的计算

3.1.4 基于巴克双线性变换的频率折叠

3.2 基于双线性变换的声道长度归一化

3.2.1 双线性变换

3.2.2 分段双线性变换

3.2.3 全通变换

3.3 实验与分析

3.3.1 声道长度归一化技术在孤立词识别中的应用

3.3.2 声道长度归一化技术在连续语音识别中的应用

3.4 本章小结

第四章信道分类与语音增强技术

4.1 基于GMM的电话信道分类

4.1.1 电话信道下的连续语音识别

4.1.2 信道环境的分类分析

4.1.3 GMM信道分类和连续语音识别系统

4.2 语音增强

4.2.1 多带谱减法

4.2.2 短时谱估计

4.2.3 瞬时维纳滤波

4.2.4 子空间法

4.3 信号子空间和听觉掩蔽效应的联合降噪

4.3.1 基于DCT的子空间降噪

4.3.2 基于听觉掩蔽效应的语音增强

4.3.3 子空间降噪和后置感知滤波

4.4 语音降噪算法的性能评估

4.4.1 分段信噪比

4.4.2 加权谱斜率测度

4.4.3 实验结果

4.5 本章小结

第五章端点检测

5.1 谱熵

5.2 特征空间能量熵

5.2.1 特征空间能量熵的定义

5.2.2 能量可变噪声环境下的话音检测

5.2.3 有色噪声环境下的特征空间能量熵

5.3 实验与分析

5.3.1 和谱熵的结果比较

5.3.2 话音检测在孤立词识别中的应用

5.3.3 对实际连续语音信号的话音检测

5.3.4 门限选取

5.4 本章小结

第六章基于概率模型的特征补偿

6.1 非高斯概率模型的推理

6.1.1 观测矢量的概率生成模型

6.1.2 矢量Taylor级数展开

6.1.3 联合高斯混合分布

6.1.4 Algonquin算法

6.1.5 贝叶斯去噪

6.2 特征补偿与最优化原理

6.2.1 四种特征补偿算法的通用表达式

6.2.2 基于Laplace方法的推理

6.3 实验与分析

6.4 本章小结

第七章不确定性解码

7.1 预测误差对特征分类的影响

7.2 基于p（y|s）的不确定性解码

7.2.1 基于SPLICE的不确定性解码

7.2.2 基于联合高斯分布的不确定性解码

7.2.3 基于0阶Taylor级数展开的不确定性解码

7.3 基于p（x|s）的不确定性解码

7.4 实验与分析

7.5 本章小结

第八章基于语音增强、特征补偿和不确定性解码的联合算法

8.1 特征补偿的误差分析

8.2 联合补偿算法

8.3 实验与分析

8.4 本章小结

结束语

致谢

参考文献

作者在学期间取得的学术成果

连续语音识别的稳健性技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢