鲁棒语言辨识关键技术研究

论文摘要

语言辨识是计算机通过分析一个语音片段以判断其所属语言种类的过程,具有广泛的应用前景。本论文研究的是鲁棒语言辨识的关键技术。目标是提高识别率的基础上尽量提高系统的鲁棒性。为此本论文从语料的获取、特征参数提取、特征域信道补偿、超矢量变换及模型核函数选取等方面展开研究,主要工作集中在以下四个方面:（1） GSV-SVM模型需要训练语料量大,而NIST推荐的VOA语料获取方法存在两点问题:一是获得的宽带纯语音中存在带背景语音的部分;二是所有提取出的纯语音中存在非目标语言。本文提出一种基于GSV-SVM和计算听觉场景分析的改进VOA语料获取方法,该方法使用GSV-SVM模型区分纯语音中的非目标语言部分,并使用听觉场景分析检测其中的存在背景音的部分。使用本文提出的方法得到了更为纯净的语音,并将该语音用于语言辨识的训练,获得了比原方法获得语料训练更好的识别率,证明本文语料获取方法更有效。（2）针对现在普遍使用的MFCC特征参数没有充分考虑人耳的听觉特性、噪声环境下鲁棒性差的问题。本文提出一种基于听觉感知和子带补偿滤波的改进特征参数提取算法。该算法将更加符合人耳感知的Gammachirp听觉模型替代MFCC参数提取算法中的三角滤波器组,同时为每个子带通道增加一个补偿滤波器提高参数的鲁棒性。实验证明本文提取的特征在各种噪声环境下的鲁棒性明显优于MFCC特征。（3）为了提高系统的鲁棒性,本文还采用因子分析技术进行信道补偿,并做了两点改进:首先在超矢量空间使用本征信道估计方法代替原来噪声空间估计方法,来估计信道子空间;然后使用估计出的信道因子,在特征域去除信道子空间的影响,实现信道的补偿。实验表明,该方法可以有效地补偿信道的影响,在跨信道测试中采用因子分析技术后的语言辨识系统识别率明显提高。（4）目前主流GSV-SVM系统的模型算法存在两个问题:一是使用KL核来度量GMM之间的距离,但忽略了协方差信息;二是GMM超矢量维数过高,严重影响SVM训练和识别的效率。为此本文提出了基于Bhattacharyya核和层次化异方差线性判别分析的语言辨识方法。一方面,通过使用Bhattacharyya核代替KL核将均值信息和方差信息共同用于度量GMM之间的距离;另一方面,通过层次化异方差线性判别分析方法,大大降低了GSV的维数,减少了训练所需的数据量。实验结果表明本文算法在识别率和效率方面均优于当前主流方法。

论文目录

表目录

图目录

摘要

ABSTRACT

第一章绪论

1.1 课题的研究背景

1.2 语言辨识技术的发展现状

1.2.1 基于统计模型的方法

1.2.2 基于音素识别的方法

1.2.3 提高语言辨识鲁棒性的方法

1.3 基于GSV-SVM 语言辨识的关键技术

1.3.1 特征提取

1.3.2 特征域的鲁棒性方法

1.3.3 GSV-SVM 方法

1.4 论文的主要内容和结构安排

第二章基于GSV-SVM 和CASA 的改进VOA 语料获取方法

2.1 NIST 推荐的VOA 语料获取方法

2.1.1 窄带电话信道数据检测

2.1.2 宽带数据中纯语音数据的获取

2.2 改进的VOA 语料获取方法

2.2.1 基于计算听觉场景分析的含背景音语音检测

2.2.2 基于GSV-SVM 的目标语言/非目标语言语音分离

2.3 实验

2.3.1 训练语料准备

2.3.2 系统配置

2.3.3 实验结果及分析

2.4 小结

第三章基于听觉感知和子带补偿滤波的鲁棒特征参数

3.1 听觉感知模型

3.2 子带补偿滤波器的设计

3.3 听觉感知鲁棒特征的提取

3.4 实验

3.4.1 实验配置

3.4.2 不同噪声环境下的性能

3.4.3 不同平衡因子λ的性能比较

3.5 小结

第四章基于因子分析的信道补偿技术

4.1 常用的信道补偿方法

4.1.1 特征映射

4.1.2 干扰属性投影

4.1.3 因子分析

4.2 基于因子分析的语言辨识

4.2.1 因子分析在语言辨识中的建模

4.2.2 模型参数估计

4.3 简化的噪声空间估计

4.3.1 本征信道子空间的估计

4.3.2 信道因子的估计

4.4 特征域信道补偿

4.5 实验

4.5.1 语料准备

4.5.2 系统配置

4.5.3 实验结果及分析

4.6 小结

第五章基于Bhattacharyya 核和HHLDA 的GSV-SVM 语言辨识

5.1 扩展的KL 核

5.2 Bhattacharyya 核

5.2.1 GMM 间的Bhattacharyya 距离

5.2.2 GMM 均值间隔核

5.2.3 扩展的Bhattacharyya 核

5.3 GSV 的层次化HLDA 降维

5.3.1 异方差线性判别分析

5.3.2 层次化的HLDA

5.4 判决的Model Pushing 方法

5.5 基于Bhattacharyya 核的GSV-SVM 语言辨识系统

5.6 实验

5.6.1 实验语料

5.6.2 实验系统配置

5.6.3 实验结果及分析

5.7 小结

结束语

参考文献

作者简介攻读硕士学位期间完成的主要工作

致谢

鲁棒语言辨识关键技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢