基于文本无关的说话人识别

论文摘要

说话人识别技术因其独特的方便性、经济性和准确性,在生物特征识别领域中具有广阔的应用前景。现有的说话人识别技术在理想条件下效果很好,但在实际环境中却由于各种因素的影响,不能得到普遍的应用,其中最重要的一个原因是大训练量和实时性不够。因此如何在不影响识别率的情况下,提高系统的训练时间和识别时间成为本领域的研究热点。SVM是一种基于结构风险最小化原则的模式分类方法,在处理样本中非线性、高维数问题时有很大的优势,应用于基于语音样本的说话人识别上有良好的效果。本文深入研究了SVM在说话识别中的大样本训练,及识别时需要匹配所有的参考模型等问题,并提出自己的解决方案。具体做了如下几方面的工作:1、针对标准SVM在说话人识别中的大样本训练问题,提出一个基于多约简支持向量机(MRSVM)的说话人辨识方法,既采用PCA变换和模糊核聚类分别减少训练样本的维数和个数,在不影响识别率的情况下,减少了标准SVM的训练量和系统存储量。2、提出一个基于PCA和MRSVM的多级说话人辨识方法,提高系统的辨识速度。利用PCA分类器具有无需训练、实现简单、快捷的优点。识别时用PCA对注册说话人进行快速预判决。利用SVM具有很强分类能力的优点,根据预判决的结果只判决一部分MRSVM的个数,从而减少了系统的辨识时间。相对于传统的识别方法,实验结果表明本文方法具有很大的时间优势,且整个系统具有很好的可扩性。

论文目录

摘要

Abstract

插图索引

附表索引

第一章绪论

1.1 课题背景

1.2 说话人识别概念

1.3 说话人识别研究现状

1.3.1 技术研究现状

1.3.2 应用研究现状

1.4 本课题主要工作

1.5 本论文内容安排

第二章说话人识别技术

2.1 特征提取

2.1.1 预处理

2.1.2 线性预测系数（LPC）

2.1.3 LPC倒谱系数（LPCC）

2.1.4 Mel倒谱系数

2.2 说话人识别模型

2.2.1 模板匹配法

2.2.2 概率模型法

2.2.3 人工神经网络方法

2.2.4 支持向量机

2.2.4.1 最优分类面

2.2.4.2 广义最优分类面

2.2.4.3 核函数

2.2.4.4 支持向量机

2.3 本章小结

第三章基于MRSVM的说话人辨识

3.1 约简支持向量机

3.2 模糊核聚类

3.3 主成分分析（PCA）

3.3.1 主成分分析

3.3.1.1 主成分分析的概念

3.3.1.2 主成分的计算

3.3.1.3 样本主成分

3.3.1.4 主成分的选取

3.4 多约简方法

3.4.1 PCA降维

3.4.2 选择样本

3.4.3 训练SVM

3.5 实验

3.6 本章小结

第四章多级说话人辨识

4.1 PCA分类器

4.1.1 PCA分类原理

4.1.2 PCA分类器原理

4.2 多级识别方法

4.3 实验

4.4 本章小结

总结

参考文献

致谢

附录A 攻读硕士学位期间所发表的论文

基于文本无关的说话人识别

论文摘要

论文目录

相关论文文献

猜你喜欢