基于神经网络的声纹识别系统设计与实现

基于神经网络的声纹识别系统设计与实现

论文摘要

声纹识别又称说话人识别(Speaker Recognition, SR),是近年来兴起的一种生物识别技术,声纹识别以其独特的方便性、经济性和准确性等优势受到世人瞩目。近年来,随着科学技术的发展,声纹识别技术已经得到了极大的发展,它在公安侦察、声控系统、医疗诊断、电子金融等行业和领域有着极其广阔的市场应用前景。声纹识别根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份。与语音识别不同,声纹识别技术并不注意语音信号中的语义内容,而是希望从语音信号中提取出个人的信息特征。声纹识别有几个关键技术:首先是特征选取的问题,从声学或者统计学的角度从声音信号中提取某些特征参数,用这些特征参数来描述说话人的声音特征。其次是识别模型,用机器学习模型去学习、记忆说话人特征,从而达到识别的目的。本文系统阐述了声纹识别技术的原理与一般流程,并重点研究了:1、声纹识别系统的语音特征参数提取。详细阐述了声道模型、线性预测编码(LPC)分析、LPC倒谱系数、Mel倒谱系数的求解;2、声纹识别的识别方法和模型。重点阐述了几种经典的主要声纹识别模型,包括隐马尔可夫模型(HMM)、高斯混合模型(GMM)、矢量量化模型(VQ)、人工神经网络及支持向量机(SVM)等。基于基本声纹识别理论和技术的研究,本文基于线性倒谱系数(LPCC)和Mel倒谱系数(MFCC)两种主要语音特征参数,采用人工神经网络作为识别模型,研究设计了一个声纹识别的原型系统。MFCC是目前使用最广泛的语音特征之一,具有计算简单、区分能力好等突出的优点;LPCC参数则具有计算高效的优点,并且比较彻底地去掉了语音产生过程中的激励信息,主要反映了声道响应,往往只要十几个倒谱系数就能较好地描述语音信号的共振峰特性,在声纹识别中取得了较好的效果,因而本文将LPCC和MFCC参数作为研究和选取的主要特征参数。神经网络的参数优化是神经网络技术研究与应用的关键,目前一般的研究大多采用遗传算法(GA)或者BP算法等进行网络参数的优化,本文将粒子群优化算法(PSO)应用于声纹识别神经网络。PSO是一种群智能技术,与GA相比,PSO算法具有编码简单,算法高效并易于实现、理解等优点。在声纹识别原型系统实现的基础上,本文在实验室环境下利用该系统进行了大量的声纹识别实验,对系统进行了系统的识别测试。这些实验以不同的方法采集实验语料,包括与文本相关的语料,与文本无关的语料,以及短时语料、较长时间语料等,文章还对不同方法方式采集的语音做的实验进行了对比分析。实验结果表明,PSO和ANN结合模型在声纹识别上具有很好的识别效果,是比较有效的识别方法。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 研究背景概述
  • 1.1.1 声纹识别技术概述
  • 1.1.2 应用需求
  • 1.2 声纹识别研究现状
  • 1.3 论文工作
  • 1.4 论文组织结构
  • 2 总体设计
  • 2.1 系统架构
  • 2.2 相关模块介绍
  • 3 相关研究
  • 3.1 预处理
  • 3.1.1 语音产生模型
  • 3.1.2 预处理
  • 3.2 特征选择
  • 3.2.1 特征提取概述
  • 3.2.2 线性预测系数
  • 3.2.3 LPC 倒谱系数
  • 3.2.4 Mel 倒谱系数
  • 3.2.5 其他参数
  • 3.3 声纹模式识别
  • 3.3.1 声纹识别模型概述
  • 3.3.2 隐马尔可夫模型(HMM)
  • 3.3.3 高斯混合模型(GMM)
  • 3.3.4 矢量量化模型(VQ)
  • 3.3.5 支持向量机模型(SVM)
  • 3.3.6 人工神经网络(ANN)
  • 4 技术选型与算法设计
  • 4.1 预处理与特征选择
  • 4.1.1 预处理
  • 4.1.2 特征选择
  • 4.2 基于人工神经网络的语音识别模型
  • 4.2.1 神经网络原理
  • 4.2.2 神经网络结构
  • 4.2.3 神经网络的学习和泛化
  • 4.3 学习算法选择与设计
  • 4.3.1 学习算法的比较
  • 4.3.2 基于PSO 的神经网络优化方法
  • 4.3.3 学习算法设计
  • 5 系统详细设计与实现
  • 5.1 系统开发环境
  • 5.2 系统文件格式
  • 5.3 基础模块
  • 5.3.1 配置文件访问
  • 5.3.2 语音文件访问
  • 5.3.3 模式文件访问
  • 5.3.4 数据处理
  • 5.3.5 异常处理
  • 5.4 采集与预处理模块
  • 5.4.1 声音信号获取
  • 5.4.2 预处理
  • 5.5 特征提取模块
  • 5.6 识别模块
  • 6 实验与分析
  • 6.1 实验语音库
  • 6.1.1 录音
  • 6.1.2 语音库构成
  • 6.2 文本相关识别实验
  • 6.3 文本无关识别实验
  • 6.4 实验分析与小结
  • 7 结束语
  • 参考文献
  • 附录1 神经网络模式文件示例
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于神经网络的声纹识别系统设计与实现
    下载Doc文档

    猜你喜欢