基于MFCC与IMFCC的说话人识别研究

论文摘要

说话人识别是指利用语音信号包含的信息来辨认说话人是谁或者确认此说话人是否为所声言的说话人。如今在低噪声、低失真环境下说话人识别已经达到较高的识别性能,但说话人识别的实际应用环境中却充满了噪声,导致说话人识别系统的识别率急剧下降。因此,目前的研究热点已转为提取噪声环境下仍能达到较好性能的鲁棒性特征和设计更加有效的分类器,从而真正实现说话人识别系统走出实验室,走向实际应用场合。针对以上需求,设计了一个以短波信道为背景的说话人识别系统,即以在短波信道环境下获得的语音信号为数据进行实验。在特征提取阶段,剖析了基于人耳听觉机理的美尔倒谱系数（MFCC）,从美尔滤波器组的结构上看,MFCC只在信号的低频区域具有较高的分辨率,在高频部分分辨率却较低,这样必然会遗失一些包含在高频区域的信息。本文应用翻转的美尔滤波器组提取出一组特征IMFCC,弥补了传统的MFCC在高频提取特征信息薄弱的不足,与原始MFCC形成互补关系。鉴于两种特征的互补关系,设计多分类融合系统,以支持向量机为分类器,分别以MFCC和IMFCC为特征单独执行分类,将得到结果按某种方式融合,取两者之长,最后做出判决来提高说话人识别系统的性能。另外应用自适应动态阈值的开集说话人识别算法,建立一个综合所有参考说话人语音特性的非特定说话人RN+1,将其列入参考说话人之中,识别时以其得分作为阈值判定待识说话人是否在集内,若在集内给出识别结果,若在集外则将待测者自动加入参考说话人集中。经实验证明,以MFCC&IMFCC为特征进行多分类融合的方法能够在短波信道环境下获得较好的识别效果。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 研究背景和现状

1.2 说话人识别的基本原理

1.2.1 说话人识别的基本概念

1.2.2 说话人识别的分类

1.3 说话人识别的应用与前景

1.4 本文所做的工作与论文结构

第2章说话人语音特征提取

2.1 特征提取的原则及评价标准

2.1.1 特征提取的原则

2.1.2 特征提取评价标准

2.2 语音信号的前端处理

2.3 常用特征参数

2.3.1 线性预测倒谱系数

2.3.2 美尔频率倒谱系数

2.3.3 短时归一能量

2.4 翻转美尔倒谱系数

2.5 其他特征

2.6 本章小结

第3章支持向量机在说话人识别中的应用

3.1 说话人识别方法介绍

3.1.1 非参数模型方法

3.1.2 参数模型方法

3.1.3 神经网络方法

3.2 统计学习理论

3.2.1 VC维

3.2.2 推广性的界

3.2.3 结构风险最小化原理

3.3 支持向量机

3.3.1 线性问题的最优分类面

3.3.2 非线性问题

3.3.4 多类分类问题

3.3.5 基于帧的投票得分方法

3.4 其他识别算法

3.5 本章小结

第4章多分类融合系统及基于动态阈值的开集算法

4.1 多分类融合系统

4.1.1 多分类融合系统的构建

4.1.2 得分的融合

4.2 基于动态阈值的开集算法

4.3 本章小结

第5章系统实现及实验结果分析

5.1 语音数据库的构成

5.2 系统的实现

5.2.1 训练过程

5.2.2 识别过程

5.3 实验结果及分析

5.3.1 不同特征参数的辨识结果

5.3.2 不同融合函数下的辨识结果

5.3.3 开集说话人辨识结果

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

基于MFCC与IMFCC的说话人识别研究

论文摘要

论文目录

相关论文文献

猜你喜欢