论文摘要
声纹识别又称说话人识别(Speaker Recognition, SR),是近年来兴起的一种生物识别技术,声纹识别以其独特的方便性、经济性和准确性等优势受到世人瞩目。近年来,随着科学技术的发展,声纹识别技术已经得到了极大的发展,它在公安侦察、声控系统、医疗诊断、电子金融等行业和领域有着极其广阔的市场应用前景。声纹识别根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份。与语音识别不同,声纹识别技术并不注意语音信号中的语义内容,而是希望从语音信号中提取出个人的信息特征。声纹识别有几个关键技术:首先是特征选取的问题,从声学或者统计学的角度从声音信号中提取某些特征参数,用这些特征参数来描述说话人的声音特征。其次是识别模型,用机器学习模型去学习、记忆说话人特征,从而达到识别的目的。本文系统阐述了声纹识别技术的原理与一般流程,并重点研究了:1、声纹识别系统的语音特征参数提取。详细阐述了声道模型、线性预测编码(LPC)分析、LPC倒谱系数、Mel倒谱系数的求解;2、声纹识别的识别方法和模型。重点阐述了几种经典的主要声纹识别模型,包括隐马尔可夫模型(HMM)、高斯混合模型(GMM)、矢量量化模型(VQ)、人工神经网络及支持向量机(SVM)等。基于基本声纹识别理论和技术的研究,本文基于线性倒谱系数(LPCC)和Mel倒谱系数(MFCC)两种主要语音特征参数,采用人工神经网络作为识别模型,研究设计了一个声纹识别的原型系统。MFCC是目前使用最广泛的语音特征之一,具有计算简单、区分能力好等突出的优点;LPCC参数则具有计算高效的优点,并且比较彻底地去掉了语音产生过程中的激励信息,主要反映了声道响应,往往只要十几个倒谱系数就能较好地描述语音信号的共振峰特性,在声纹识别中取得了较好的效果,因而本文将LPCC和MFCC参数作为研究和选取的主要特征参数。神经网络的参数优化是神经网络技术研究与应用的关键,目前一般的研究大多采用遗传算法(GA)或者BP算法等进行网络参数的优化,本文将粒子群优化算法(PSO)应用于声纹识别神经网络。PSO是一种群智能技术,与GA相比,PSO算法具有编码简单,算法高效并易于实现、理解等优点。在声纹识别原型系统实现的基础上,本文在实验室环境下利用该系统进行了大量的声纹识别实验,对系统进行了系统的识别测试。这些实验以不同的方法采集实验语料,包括与文本相关的语料,与文本无关的语料,以及短时语料、较长时间语料等,文章还对不同方法方式采集的语音做的实验进行了对比分析。实验结果表明,PSO和ANN结合模型在声纹识别上具有很好的识别效果,是比较有效的识别方法。