基于HMM和ANN的汉语语音识别

论文题目: 基于HMM和ANN的汉语语音识别

论文类型: 博士论文

论文专业: 信号与信息处理

作者: 陈立伟

导师: 赵春晖

关键词: 语音识别,特征提取,神经网络,遗传算法,隐马尔可夫模型

文献来源: 哈尔滨工程大学

发表年度: 2005

论文摘要: 语音识别是一门内涵丰富、应用广泛的技术,它的实用性和趣味性使得人们对它有着迫切的应用需求。语音识别正在办公或商业系统的数据库语音查询、工业生产部门的语声控制、电话与电信系统的自动拨号以及医疗和卫生等领域发挥重要的作用,并且极有可能成为下一代操作系统和应用程序的用户界面。虽然语音识别已经取得巨大的成就,形成了隐马尔可夫模型、矢量量化、动态时间规正等有效技术,出现了一些比较成功的语音识别系统,但是面临实用化时还是存在一些问题。例如:语音识别系统的适应性差,对环境依赖性强,在某种环境下建立的语音识别系统只能在这种环境下应用,否则系统性能将急剧下降,而且全世界共有上千种语言,每种语言又有许多种方言,随着环境的改变,识别系统的性能也必然会下降。本文着眼于汉语语音识别系统实用中所面临的主要问题,以提高识别率和提高识别系统的抗噪声能力为目的,研究汉语语音识别实用化理论和关键技术。本文用大量的实验和数据来证实了所提出方法的有效性。主要研究工作和取得的成果如下: 1.介绍语音识别系统中涉及到的基本概念及原理,分析一般语音识别系统的结构及所用到的各种理论技术,包括语音识别单元的选取、特征参数提取、模式匹配及模型训练等技术。另外,对语音识别系统的发展史、研究现状、分类方式以及目前所面临的问题等也进行了阐述。 2.系统地研究了语音识别各种主要特征参数的提取方法,特别分析和研究了反映语音倒谱特征的线性预测倒谱系数(LPCC)和美尔频率倒谱系数(MFCC)的提取方法。并且为了反映特征参数的动态特性,本文还提出采用LPCC、MFCC一阶、二阶差分参数来进行语音识别的方法;本文还研究了线谱频率参数(LSF)及其快速求解算法,快速算法所需存储空间更小、各种代数运算次数更少、软件实现更简单。 3.针对噪声环境下的语音识别,本文提出了一种将连续概率密度隐马尔可夫模型(CDHMM)与自组织特征映射神经网络(SOFM)相结合而构成

论文目录:

第1章绪论

1．1 选题的目的和意义

1．2 语音识别的基本概念和相关理论

1．2．1 语音识别的基本概念

1．2．2 语音识别原理和系统的组成

1．2．3 语音信号分析及特征提取

1．3 语音识别技术的发展和现状

1．3．1 国际语音识别技术的发展

1．3．2 国内语音识别技术的发展

1．4 目前存在的问题和发展方向

1．5 本文主要研究内容

第2章语音识别特征参数的提取

2．1 引言

2．2 线性预测倒谱系数(LPCC)的求解

2．2．1 线性预测倒谱系数(LPCC)分析

2．2．2 仿真实验

2．3 MFCC参数的快速提取算法

2．3．1 MFCC参数分析

2．3．2 仿真实验

2．4 线谱频率参数的快速提取算法

2．4．1 线谱频率分析

2．4．2 求解线谱频率的常用算法

2．4．3 求解线谱频率的快速算法

2．4．4 仿真实验

2．5 本章小结

第3章神经网络语音识别算法

3．1 引言

3．2 基于 HMM和 SOFM混合模型的语音识别

3．2．1 隐马尔可夫模型

3．2．2 自组织特征映射神经网络

3．2．3 HMM与 SOFM混合模型

3．2．4 仿真实验

3．3 模糊神经网络语音识别

3．3．1 模糊理论

3．3．2 模糊神经网络

3．3．3 模糊神经网络语音识别

3．3．4 BP神经网络

3．3．5 仿真实验

3．4 CDHMM/SOFM与模糊神经网络分类模型比较

3．5 本章小结

第4章基于神经网络的说话人识别

4．1 引言

4．2 基于 SOFM-PNN混合模型的说话人识别

4．2．1 GMM分类器

4．2．2 概率神经网络

4．2．3 SOFM-PNN混合神经网络分类器

4．2．4 仿真实验

4．3 基于遗传神经网络的说话人识别

4．3．1 遗传算法

4．3．2 矢量量化

4．3．3 遗传矢量量化(GAVQ)算法

4．3．4 RBF神经网络及遗传 RBF神经网络

4．3．5 仿真实验

4．4 SOFM-PNN与GA-RBF的比较

4．5 本章小结

第5章基于机理隐马尔可夫模型的语音识别

5．1 引言

5．2 齐次隐马尔可夫模型的局限性

5．3 Baum-Welch迭代算法的分析

5．4 依据发音机理来建立 MBHMM参数模型

5．4．1 依据发音机理来确定非齐次的A_ij(n)参数模型

5．4．2 构建B_ij参数模型的方法

5．5 若干参数选择的讨论

5．5．1 切分段数的讨论

5．5．2 音元状态个数选择的讨论

5．5．3 飘动位数的讨论

5．6 计算程序框图

5．7 仿真实验

5．8 本章小结

结论

参考文献

攻读博士学位期间发表的论文

致谢

个人简历

发布时间: 2005-10-21

参考文献

[1].基于语音识别基元声学整体结构特征的识别模型研究[D]. 贺苏宁.电子科技大学2005
[2].基于特征提取的抗噪声语音识别研究[D]. 徐金甫.华南理工大学2000
[3].抗噪声语音识别新技术的研究[D]. 宁更新.华南理工大学2006
[4].语音识别中的环境补偿研究[D]. 沈海峰.北京邮电大学2006
[5].高效简约的语音识别声学模型[D]. 李小兵.中国科学技术大学2006
[6].听觉特性与鲁棒语音识别算法研究[D]. 孙暐.东南大学2006
[7].噪声鲁棒语音识别中若干问题的研究[D]. 雷建军.北京邮电大学2007
[8].语音关键词识别技术的研究[D]. 孙成立.北京邮电大学2008
[9].音频噪声环境下唇动信息在语音识别中的应用技术研究[D]. 奉小慧.华南理工大学2010
[10].语音识别中的后处理技术研究[D]. 吴斌.北京邮电大学2008

标签：语音识别论文; 特征提取论文; 神经网络论文; 遗传算法论文; 隐马尔可夫模型论文;

基于HMM和ANN的汉语语音识别

猜你喜欢