论文摘要
本文主要利用各种声学特征参数基于GMM建模的方法开展了自动语言辨识的研究,主要的研究工作包括:1.六语种语音语料库的建立:利用已有的汉语语料库和从网络上采集的英、德、日、法、西班牙等五语言的语音建立了多语种语料库。语料库的训练集中有264个说话人、每人60~300秒的语音,测试集中每个语种有30~50个训练集外的说话人,每个人有至少50个平均时长为4.5秒的语音片段。2.自动语言辨识系统的初步实验研究:建立了基于GMM的六语种识别系统,研究了系统识别率和GMM的混合分量数目与训练数据的多少的关系,以及RASTA滤波和CMS处理对MFCC参数性能的影响。3.提出了一种新的二次弯折函数,研究了基于基音频率均值的说话人归一化技术在自动语言辨识系统中的应用。利用对比实验来比较二次弯折函数与常规的线性弯折函数和分段线性弯折函数的性能。4.提出了滑动倒谱的概念,并将两种常用特征参数RASTA-MFCC和RASTA-PLP的滑动倒谱与当前研究中广泛采用的滑动差分倒谱进行了对比研究。然后进一步考察了RASTA-PLP滑动倒谱的控制参数在不同的取值情况下对识别性能的影响,利用爬山法确定了达到局部最优控制参数组合的路径。最后研究了RASTA-PLP的滑动倒谱与其它参数的特征级和决策级数据融合。
论文目录
摘要ABSTRACT第一章 前言1.1 自动语言辨识介绍1.2 自动语言辨识研究的主要方法1.3 自动语言辨识系统评测1.4 国内的研究现状1.5 论文的组织和章节安排第二章 语音信号特征参数2.1 RASTA-PLP参数2.2 MFCC参数2.3 RASTA-MFCC参数2.4 CMS-MFCC参数2.5 滑动差分倒谱参数第三章 高斯混合模型3.1 高斯混合模型3.2 期望最大(EM)算法3.3 贪婪期望最大(Greedy EM)算法第四章 语音语料库4.1 英语语音语料库的组成4.2 德语语音语料库的组成4.3 日语语音语料库的组成4.4 法语语音语料库的组成4.5 西班牙语语音语料库的组成第五章 识别系统的初步实验5.1 实验用语音数据5.2 训练数据量及高斯混合分量数目对性能的影响5.3 RASTA和CMS对MFCC性能的影响第六章 说话人归一化技术6.1 说话人归一化技术6.2 频率弯折因子估计6.3 频率弯折函数6.4 二次频率弯折函数6.5 实验与分析第七章 滑动倒谱参数与数据融合7.1 滑动倒谱参数7.2 数据融合7.3 实验与分析第八章 总结和展望8.1 总结8.2 对未来工作的展望参考文献致谢攻读硕士学位期间发表的学术论文目录
相关论文文献
标签:自动语言辨识论文; 声学特征论文; 滑动倒谱论文; 高斯混合模型论文;