论文摘要
汉语数字语音识别(MDSR,Mandarin Digit Speech Recognition)是语音识别领域中一个具有广泛应用背景的分支,在电话语音拨号,门禁系统、身份证号码确认等领域都有重要的应用价值。但汉语数字语音识别存在语音的音节较少等缺点,导致各个数字之间的混淆度很高,识别起来有相当的困难。本文主要研究了目前的汉语数字语音识别技术,并通过改进来提高其系统的识别性能。从基于语音信号产生的数字模型出发,研究了一个完整语音识别系统的各个组成部分,包括前期的预处理、语音模型的训练、识别算法的处理等。本文的主要工作如下:1、在讨论和比较语音信号各种传统特征参数的提取方案,包括线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)的基础上,研究了基于听觉特性Bark尺度子波变换的语音特征参数提取方案来提高参数的稳定性。初步研究了一种基于生物视觉机制基础上产生的脉冲耦合神经网络来提取语音特征,并对其进行改进。2、在模式匹配上,在讨论传统的动态时间弯折(DTW)算法基础上,提出了基于密度函数估计和贝叶斯决策理论而建立的人工神经网络即概率神经网络(PNN)来建立识别模型。3、对模型训练和识别算法进行了软件仿真,建立了用于训练和测试的数字语音数据库,创建了人机交互界面,并对识别算法的实时性和准确性进行了测试,给出主要的仿真结果和结论。最后提出了本课题今后进一步研究和改进的方向。
论文目录
相关论文文献
标签:汉语数字语音识别论文; 子波变换论文; 脉冲耦合神经网络论文; 概率神经网络论文;