论文摘要
语言辨识是计算机通过分析一个语音片段以判断其所属语言种类的过程,具有广泛的应用前景。本论文研究的是鲁棒语言辨识的关键技术。目标是提高识别率的基础上尽量提高系统的鲁棒性。为此本论文从语料的获取、特征参数提取、特征域信道补偿、超矢量变换及模型核函数选取等方面展开研究,主要工作集中在以下四个方面:(1) GSV-SVM模型需要训练语料量大,而NIST推荐的VOA语料获取方法存在两点问题:一是获得的宽带纯语音中存在带背景语音的部分;二是所有提取出的纯语音中存在非目标语言。本文提出一种基于GSV-SVM和计算听觉场景分析的改进VOA语料获取方法,该方法使用GSV-SVM模型区分纯语音中的非目标语言部分,并使用听觉场景分析检测其中的存在背景音的部分。使用本文提出的方法得到了更为纯净的语音,并将该语音用于语言辨识的训练,获得了比原方法获得语料训练更好的识别率,证明本文语料获取方法更有效。(2)针对现在普遍使用的MFCC特征参数没有充分考虑人耳的听觉特性、噪声环境下鲁棒性差的问题。本文提出一种基于听觉感知和子带补偿滤波的改进特征参数提取算法。该算法将更加符合人耳感知的Gammachirp听觉模型替代MFCC参数提取算法中的三角滤波器组,同时为每个子带通道增加一个补偿滤波器提高参数的鲁棒性。实验证明本文提取的特征在各种噪声环境下的鲁棒性明显优于MFCC特征。(3)为了提高系统的鲁棒性,本文还采用因子分析技术进行信道补偿,并做了两点改进:首先在超矢量空间使用本征信道估计方法代替原来噪声空间估计方法,来估计信道子空间;然后使用估计出的信道因子,在特征域去除信道子空间的影响,实现信道的补偿。实验表明,该方法可以有效地补偿信道的影响,在跨信道测试中采用因子分析技术后的语言辨识系统识别率明显提高。(4)目前主流GSV-SVM系统的模型算法存在两个问题:一是使用KL核来度量GMM之间的距离,但忽略了协方差信息;二是GMM超矢量维数过高,严重影响SVM训练和识别的效率。为此本文提出了基于Bhattacharyya核和层次化异方差线性判别分析的语言辨识方法。一方面,通过使用Bhattacharyya核代替KL核将均值信息和方差信息共同用于度量GMM之间的距离;另一方面,通过层次化异方差线性判别分析方法,大大降低了GSV的维数,减少了训练所需的数据量。实验结果表明本文算法在识别率和效率方面均优于当前主流方法。
论文目录
相关论文文献
标签:语言辨识论文; 高斯混合模型超矢量论文; 听觉感知论文; 子带补偿滤波论文; 因子分析论文; 信道补偿论文; 层次化异方差线性判别分析论文; 鲁棒性论文;