基于听觉特性和神经网络的汉语数字语音识别研究

基于听觉特性和神经网络的汉语数字语音识别研究

论文摘要

汉语数字语音识别(MDSR,Mandarin Digit Speech Recognition)是语音识别领域中一个具有广泛应用背景的分支,在电话语音拨号,门禁系统、身份证号码确认等领域都有重要的应用价值。但汉语数字语音识别存在语音的音节较少等缺点,导致各个数字之间的混淆度很高,识别起来有相当的困难。本文主要研究了目前的汉语数字语音识别技术,并通过改进来提高其系统的识别性能。从基于语音信号产生的数字模型出发,研究了一个完整语音识别系统的各个组成部分,包括前期的预处理、语音模型的训练、识别算法的处理等。本文的主要工作如下:1、在讨论和比较语音信号各种传统特征参数的提取方案,包括线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)的基础上,研究了基于听觉特性Bark尺度子波变换的语音特征参数提取方案来提高参数的稳定性。初步研究了一种基于生物视觉机制基础上产生的脉冲耦合神经网络来提取语音特征,并对其进行改进。2、在模式匹配上,在讨论传统的动态时间弯折(DTW)算法基础上,提出了基于密度函数估计和贝叶斯决策理论而建立的人工神经网络即概率神经网络(PNN)来建立识别模型。3、对模型训练和识别算法进行了软件仿真,建立了用于训练和测试的数字语音数据库,创建了人机交互界面,并对识别算法的实时性和准确性进行了测试,给出主要的仿真结果和结论。最后提出了本课题今后进一步研究和改进的方向。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 第1.1节 语音识别研究的目的和意义
  • 第1.2节 国内外语音识别的发展和现状
  • 第1.3节 语音识别难点分析
  • 第1.4节 本文研究的主要工作
  • 第二章 语音信号识别的理论基础
  • 第2.1节 语音信号产生的声学基础
  • 第2.2节 语音信号产生的数字模型
  • 第2.3节 语音信号的预处理
  • 第2.4节 语音信号的时域分析
  • 第2.5节 语音信号的频域分析和语谱图
  • 第三章 语音信号的特征提取
  • 第3.1节 线性预测倒谱系数
  • 第3.2节 MEL频率倒谱系数
  • 第3.3节 基于听觉特性 BARK子波变换的语音信号特征参数
  • 第3.4节 基于脉冲耦合神经网络的特征参数
  • 第四章 语音信号的识别算法
  • 第4.1节 基于动态时间规划(DTW)的语音识别算法
  • 第4.2节 基于概率神经网络(PNN)的语音识别算法
  • 第五章 语音识别系统仿真及结果分析
  • 第5.1节 语音识别系统建立
  • 第5.2节 仿真系统设计
  • 第5.3节 实验结果及分析
  • 第六章 总结与展望
  • 第6.1节 总结
  • 第6.2节 对进一步工作的展望
  • 参考文献
  • 附录攻读学位期间发表的论文
  • 致谢
  • 详细摘要
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于听觉特性和神经网络的汉语数字语音识别研究
    下载Doc文档

    猜你喜欢