论文摘要
耳语音作为人类的一种辅助发音方式,在日常生活中起着较为广泛的作用,尤其是在金融领域,公安司法领域中各种身份的确认。说话者为了保证信息的私密性,常常会用到耳语音。正因如此,耳语音说话人识别也作为一个新的课题被提出来。耳语音主要是用在手机通话中,语音必然会受到信道畸变的影响。传统的识别模型遇到训练和测试的信道环境差异变大时,识别率就会大大受到影响。因此,必然需要一种稳健的信道补偿算法来增强这个说话人识别系统。为了解决这个问题,本文做了以下几个方面的工作:一、将各种信道的耳语音数据混合在一起训练通用背景模型(UBM),然后在此基础上进行最大后验概率(MAP)自适应获得说话人模型,将此模型和常规的GMM模型进行识别率的比较。实验证明,UBM模型优于普通的GMM。二、将联合因子分析(JFA)应用到耳语识别中,根据耳语数据库的特性,采取分开估计和省略残差空间的方法。具体在识别过程中,通过将训练所得的说话人因子和测试所得的信道因子相结合的方式,达到说话人不断适应测试信道环境的目的。实验结果显示修改后JFA的识别效果大大提升。另外,根据JFA在短时识别方面效果不理想,提出了一种在模型上保持说话人因子不变,而将信道因子用到特征方面,对每一帧特征矢量进行补偿的混合补偿法,该方法相对于JFA来说补偿的更为细致,实验显示HH信道训练时1s和2s平均识别率分别提高4.36%和3.89%,EP信道训练时1s和2s平均识别率分别提高4.14%和2.64%。三、根据支持向量机(SVM)的区分性,将说话人超向量输入到SVM中,结果系统性能不如UBM-MAP系统。这时将说话人因子矢量输入到SVM中,由于说话人因子在辨认系统中特征维数低,易线性可分,获得了良好的识别效果。然后经过三种信道补偿方法进一步去冗余,取得了和JFA相当的识别结果。
论文目录
摘要Abstract第一章 绪论1.1 耳语音研究背景1.2 耳语音说话人识别研究现状1.3 耳语音数据库介绍1.4 本文的主要工作1.5 论文结构第二章 耳语音发音特点2.1 耳语音的声理特性2.2 耳语音不同信道的时频特点2.2.1 时域特点2.2.2 频域特点第三章 基于GMM 的耳语说话人识别系统3.1 常用的模型训练方法3.2 特征参数3.2.1 特征预处理3.2.2 MFCC 提取3.2.3 一阶差分参数3.3 模型训练与识别3.3.1 K 均值聚类算法3.3.2 EM 算法3.3.3 系统的构建3.4 基于UBM-MAP的说话人识别系统3.4.1 通用背景模型(UBM)概述3.4.2 系统的训练与测试3.5 两种系统的结果及分析第四章 复杂信道环境中耳语说话人识别4.1 常用的信道补偿技术4.1.1 特征域4.1.2 模型域4.1.3 得分域4.2 联合因子分析(JOINT FACTOR ANALYSIS)4.2.1 因子分析与主成分分析的区别4.2.2 GMM 均值超向量提取4.2.3 联合因子分析概述4.3 基于JFA的说话人辨认模型4.3.1 UBM 和Baum-Welch 统计量计算4.3.2 说话人空间和信道空间估计4.3.3 残差空间估计4.3.4 JFA 的训练与测试4.4 实验结果及分析4.5 改进JFA在短时方面的测试4.5.1 常用的方法4.5.2 提出的混合补偿法4.5.3 提出方法的实验结果及分析第五章 基于支持向量机的耳语说话人识别5.1 支持向量机概述5.1.1 最优分界面5.1.2 基本原理及算法5.1.3 常用核函数5.2 基于超向量和SVM 的耳语说话人识别5.2.1 超向量线性核函数5.2.2 SVM 的实现平台5.2.3 基于超向量的系统识别结果5.3 因子分析下的耳语说话人识别5.3.1 类内协方差规整(WCCN)5.3.2 线性判别分析(LDA)5.3.3 冗余属性投影(NAP)5.4 基于说话人因子的系统识别结果第六章 总结与展望6.1 论文总结6.2 今后展望参考文献攻读硕士学位期间发表的学术论文致谢
相关论文文献
标签:耳语音论文; 说话认识别论文; 联合因子分析论文; 混合补偿论文; 支持向量机论文;