论文摘要
说话人识别就是利用人的语音自动对其身份进行鉴别与认证的技术。说话人识别具有广阔的应用前景,已经成为身份认证及人工智能领域研究的一个热点。从20世纪30年代发展至今已经有许多比较成熟的说话人识别理论模型。为了提高说话人识别系统的性能,主要是识别率和稳定性,本课题针对说话人识别的两个关键环节,特征提取和模式匹配展开研究,对原有的一些特征和匹配方法进行了改进,寻找出了更加简单有效的算法。主要内容如下:特征提取:研究了目前现有的几种用于说话人识别的主要特征参数,其中包括线性预测倒谱系数(LPCC)、美尔倒谱系数(MFCC)以及动态特征参数。模式匹配方法:对当今应用在与无本无关的说话人识别中效果较好的基于矢量量化(VQ)和高斯混合模型(GMM)的模式匹配方法做了深入的研究和改进。经过对上述两个问题的重点研究,本文提出了三种不同的说话人识别算法:(1)基于MFCC+质心和VQ的说话人识别算法经过对矢量量化方法的研究,通过对特征参数、码本大小和失真测度等的选取做的比较实验,提出了基于MFCC+质心和VQ的说话人识别算法。该算法提取不包括C0在内的前12个MFCC分量和质心构成的13维的组合参数来表征语音的个性特征。此算法的优点是计算简单,识别速度快。但也存在着在语音较短条件下识别率较低的缺点。(2)基于MFCC+ΔMFCC和GMM的说话人识别算法考虑到(1)中所述的基于MFCC+质心和VQ的说话人识别算法用在语音较短条件下识别率较低的缺点,又对高斯混合模型进行了研究,提出了基于MFCC+ΔMFCC和GMM的说话人识别算法。该算法提取MFCC分量的C2-C13以及它们的一阶差分系数ΔMFCC组成的24维的特征向量来表征语音。经实验表明,即使在语音较短的条件下,此方法也能得到比较高的识别率,但存在着识别速度较慢和识别结果不稳定的问题。(3)基于VQ-GMM的稳定高效的说话人识别算法为解决(2)中基于MFCC+ΔMFCC和GMM的说话人识别算法用于说话人辨认实验出现的识别结果不稳定的问题,将矢量量化和高斯混合模型成功进行了结合,提出了基于VQ-GMM的说话人识别算法。在这一算法中高斯混合模型的初始化参数来自于矢量量化的结果。提取的语音特征参数仍然是MFCC+ΔMFCC组成的24维的向量。与传统的初始化方法相比,将此算法用于语音较短的说话人辨认实验,识别率更高,更稳定。以上三种算法用于我们自己录制的50人的语音库进行说话人辨认实验中都取得了比较好的结果,可以根据需要应用在不同的场合。目前针对说话人识别的应用普遍性比较强,而针对性不够。因此,未来的工作主要是从语音信号中寻找具有较好鲁棒性和实时性的说话人语音特征,以及具有更好实效性的识别方法。另外还要考虑到现在说话人识别技术市场性不够的问题,在以后的研究中多针对实用中的某一方面进行深入的探讨。