与文本无关的说话人识别系统研究

与文本无关的说话人识别系统研究

论文摘要

说话人识别就是利用人的语音自动对其身份进行鉴别与认证的技术。说话人识别具有广阔的应用前景,已经成为身份认证及人工智能领域研究的一个热点。从20世纪30年代发展至今已经有许多比较成熟的说话人识别理论模型。为了提高说话人识别系统的性能,主要是识别率和稳定性,本课题针对说话人识别的两个关键环节,特征提取和模式匹配展开研究,对原有的一些特征和匹配方法进行了改进,寻找出了更加简单有效的算法。主要内容如下:特征提取:研究了目前现有的几种用于说话人识别的主要特征参数,其中包括线性预测倒谱系数(LPCC)、美尔倒谱系数(MFCC)以及动态特征参数。模式匹配方法:对当今应用在与无本无关的说话人识别中效果较好的基于矢量量化(VQ)和高斯混合模型(GMM)的模式匹配方法做了深入的研究和改进。经过对上述两个问题的重点研究,本文提出了三种不同的说话人识别算法:(1)基于MFCC+质心和VQ的说话人识别算法经过对矢量量化方法的研究,通过对特征参数、码本大小和失真测度等的选取做的比较实验,提出了基于MFCC+质心和VQ的说话人识别算法。该算法提取不包括C0在内的前12个MFCC分量和质心构成的13维的组合参数来表征语音的个性特征。此算法的优点是计算简单,识别速度快。但也存在着在语音较短条件下识别率较低的缺点。(2)基于MFCC+ΔMFCC和GMM的说话人识别算法考虑到(1)中所述的基于MFCC+质心和VQ的说话人识别算法用在语音较短条件下识别率较低的缺点,又对高斯混合模型进行了研究,提出了基于MFCC+ΔMFCC和GMM的说话人识别算法。该算法提取MFCC分量的C2-C13以及它们的一阶差分系数ΔMFCC组成的24维的特征向量来表征语音。经实验表明,即使在语音较短的条件下,此方法也能得到比较高的识别率,但存在着识别速度较慢和识别结果不稳定的问题。(3)基于VQ-GMM的稳定高效的说话人识别算法为解决(2)中基于MFCC+ΔMFCC和GMM的说话人识别算法用于说话人辨认实验出现的识别结果不稳定的问题,将矢量量化和高斯混合模型成功进行了结合,提出了基于VQ-GMM的说话人识别算法。在这一算法中高斯混合模型的初始化参数来自于矢量量化的结果。提取的语音特征参数仍然是MFCC+ΔMFCC组成的24维的向量。与传统的初始化方法相比,将此算法用于语音较短的说话人辨认实验,识别率更高,更稳定。以上三种算法用于我们自己录制的50人的语音库进行说话人辨认实验中都取得了比较好的结果,可以根据需要应用在不同的场合。目前针对说话人识别的应用普遍性比较强,而针对性不够。因此,未来的工作主要是从语音信号中寻找具有较好鲁棒性和实时性的说话人语音特征,以及具有更好实效性的识别方法。另外还要考虑到现在说话人识别技术市场性不够的问题,在以后的研究中多针对实用中的某一方面进行深入的探讨。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究的意义及应用
  • 1.2 说话人识别的研究历史及现状
  • 1.3 说话人识别概述
  • 1.3.1 说话人识别的基本原理
  • 1.3.2 说话人识别的分类
  • 1.3.3 说话人识别的常用特征
  • 1.3.4 说话人识别中的几种模式匹配方法
  • 1.3.5 说话人识别系统的性能评价
  • 1.4 说话人识别技术存在的问题与难点
  • 1.5 本论文的主要工作和内容安排
  • 第2章 说话人识别基础知识
  • 2.1 语音信号处理基础知识
  • 2.1.1 语音发声机理
  • 2.1.2 人耳听觉感知机理
  • 2.1.3 语音信号的数字模型
  • 2.2 语音信号预处理
  • 2.2.1 预加重
  • 2.2.2 分帧和加窗
  • 2.2.3 端点检测
  • 2.3 当前流行的说话人识别特征
  • 2.3.1 线性预测倒谱系数LPCC
  • 2.3.2 美尔频率倒谱系数MFCC
  • 2.3.3 动态特征参数
  • 2.4 小结
  • 第3章 基于MFCC+质心和VQ 的说话人识别算法
  • 3.1 矢量量化(VQ)
  • 3.1.1 矢量量化的基本原理
  • 3.1.2 矢量量化的失真测度
  • 3.2 LBG 算法
  • 3.2.1 LBG 算法的流程
  • 3.2.2 初始码本的选定
  • 3.3 基于MFCC+质心和VQ 的说话人识别算法
  • 3.3.1 语音信号预处理
  • 3.3.2 组合特征参数的选取
  • 3.3.3 LBG 算法研究
  • 3.3.4 仿真实验
  • 3.4 小结
  • 第4章 基于MFCC+ΔMFCC 和GMM 的说话人识别算法
  • 4.1 高斯混合模型(GMM)
  • 4.1.1 GMM 的背景知识
  • 4.1.2 GMM 的基本概念
  • 4.1.3 GMM 的训练
  • 4.1.4 GMM 识别算法
  • 4.2 基于MFCC+ΔMFCC 和GMM 的说话人识别算法
  • 4.2.1 MFCC+ΔMFCC 特征参数的选取
  • 4.2.2 仿真实验
  • 4.3 小结
  • 第5章 基于VQ-GMM 的稳定高效的说话人识别算法
  • 5.1 VQ-GMM 的研究背景
  • 5.2 VQ-GMM 的构建
  • 5.3 仿真实验
  • 5.4 小结
  • 第6 章总结与展望
  • 6.1 论文总结
  • 6.2 下一步研究的展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间取得的科研成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    与文本无关的说话人识别系统研究
    下载Doc文档

    猜你喜欢