说话人识别系统的研究

说话人识别系统的研究

论文摘要

说话人识别作为生物认证技术的一种,是根据语音波形中反映说话人生理和行为特征的语音参数,自动鉴别说话人身份的一项技术。说话人识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。因此,研究一种识别率高、鲁棒性强的说话人识别方法是国内外众多研究者努力的目标。本文通过分析说话人识别基本原理与系统结构,考察现有的说话人识别技术,研究采用线性预测倒谱系数和美尔倒谱系数为特征参数,运用矢量量化的说话人识别方法,建立说话人识别系统。为了有效地提高系统的识别效果,具体工作总结如下:首先研究了语音端点检测算法,介绍了常用的短时能量、短时平均过零率、基于小波变换后的分形理论和基于频带方差的端点检测方法,相关实验仿真均反映其各自算法特点。并在分析以上算法存在不足的情况下,提出了改进算法即子带频带方差和功率谱熵的端点检测算法,实验仿真结果证明了其优越性。接着研究了特征提取算法,主要研究了几种常见的语音特征参数(LPC、LPCC、MFCC),并对MFCC和LPCC进行了一定的理论推导,并提出了一种新的特征参数—基于最小方差无失真响应的感知倒谱系数PMCC。然后研究了说话人识别方法,简单介绍了各类常用的说话人识别方法,动态时间规正(DTW)方法,矢量量化(VQ)方法,隐马尔可夫模型(HMM)方法,高斯混合模型(GMM)方法,人工神经网络(ANN)方法、支持向量机模型(SVM)方法。着重详细地介绍了矢量量化(VQ)方法的基本原理及其应用,同时提出了改进的矢量量化(VQ)方法,并作为本系统识别方法。最后研究了系统的实现过程,提取的线性预测系数语音特征参数(LPCC)和美尔倒谱系数语音特征参数(MFCC),首先对LPCC和MFCC运用矢量量化(VQ)方法在不同码本容量,不同时长进行说话人识别实验,然后对LPCC和MFCC运用改进的矢量量化(VQ)方法在不同时长进行说话人识别实验,并比较、分析其识别实验结果,得出最佳识别方法—基于标准差的WDMVQ算法作为系统的识别方法。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 语音识别与说话人识别研究状况
  • 1.1.1 语音识别的研究与进展
  • 1.1.2 说话人识别的研究与进展
  • 1.2 说话人识别综述
  • 1.2.1 说话人识别基本概念
  • 1.2.2 说话人识别分类及其优缺点
  • 1.2.3 说话人识别的应用前景
  • 1.3 本课题主要研究的内容
  • 第二章 语音端点算法的研究
  • 2.1 基于短时能量和短时平均过零率的端点检测算法
  • 2.1.1 短时能量和短时幅度差
  • 2.1.2 短时过零率和短时过门限率
  • 2.2 基于小波变换后的分形理论的端点检测
  • 2.2.1 小波变换后及其维数推导
  • 2.2.2 语音信号分形维数及其计算
  • 2.2.3 语音信号与噪声语音的自适应分离方法
  • 2.2.4 带噪语音的端点检测
  • 2.3 基于频带方差的端点检测算法
  • 2.3.1 基于频带方差的算法原理
  • 2.3.2 基于频带方差的端点检测的实验仿真
  • 2.4 基于自适应子带频谱熵和功率谱熵的端点检测算法
  • 2.4.1 基于自适应子带频谱熵的端点检测的原理
  • 2.4.2 基于自适应子带功率谱熵的端点检测的原理
  • 2.4.3 基于自适应子带谱熵的端点检测算法在各种噪声下的实验仿真
  • 2.5 小结
  • 第三章 说话人特征参数的提取
  • 3.1 说话人识别常用的特征
  • 3.2 线性预测系数LPC
  • 3.2.1 线性预测的基本原理
  • 3.2.2 线性预测系数的求取
  • 3.2.3 LPC模型阶数的确定
  • 3.3 线性预测倒谱系数LPCC
  • 3.3.1 同态处理基本原理
  • 3.3.2 复倒谱和倒谱
  • 3.3.3 线性预测倒谱
  • 3.4 美尔倒谱系数MFCC
  • 3.4.1 Mel滤波器组
  • 3.4.2 MFCC的计算原理
  • 3.4.3 差分参数
  • 3.4.4 特征提升
  • 3.5 基于最小方差无失真响应的感知倒谱特征参数PMCC
  • 3.5.1 最小方差无失真响应的原理
  • 3.5.2 MVDR的计算
  • 3.5.3 MVDR的感知倒谱系数PMCC
  • 3.5 小结
  • 第四章 说话人识别的方法
  • 4.1 说话人识别方法简介
  • 4.1.1 基于模板匹配模型的方法
  • 4.1.2 基于概率模型的方法
  • 4.1.3 基于判决模型的方法
  • 4.1.4 基于混合模型的方法
  • 4.2 矢量量化(VQ)的基本原理
  • 4.2.1 矢量量化的一般方法
  • 4.2.2 矢量量化的失真测度
  • 4.2.3 最佳矢量量化器和码本的设计
  • 4.3 VQ话者识别的改进
  • 4.4 小结
  • 第五章 说话人识别系统的实现
  • 5.1 系统开发环境介绍
  • 5.1.1 硬件环境
  • 5.1.2 软件环境
  • 5.1.3 开发平台MATLAB介绍
  • 5.2 说话人识别系统的设计
  • 5.3 说话人特征提取
  • 5.3.1 语音采样及预处理实验
  • 5.3.2 LPCC特征提取
  • 5.3.3 MFCC特征提取
  • 5.4 特征匹配
  • 5.5 VQ识别模型的实现
  • 5.6 实验结果及分析
  • 5.6.1 说话人识别试验
  • 5.6.2 加权VQ的说话人识别试验
  • 5.7 小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    说话人识别系统的研究
    下载Doc文档

    猜你喜欢