语音识别技术的研究及其在发音错误识别系统中的应用

语音识别技术的研究及其在发音错误识别系统中的应用

论文摘要

二十世纪五十年代以来,语音识别的技术发展迅速。作为一门交叉学科,语音识别己经形成了完整的理论体系,基于PC平台的语音识别系统的研究也在技术上获得了一些成功。尽管目前各种各样的语音识别产品相继涌现,但在许多特定领域,由于其环境的特殊性,往往需要专门开发,以适应实际需要。因此,针对英语学习过程中,学习者往往缺乏标准且有效的口语训练的问题,设计并实现了一套具有示范、评分、报错功能的发音错误识别系统。首先,本文根据语音识别系统的基本构成模型,介绍了预处理、特征参数提取到模型的训练与匹配所涉及的数字信号处理、模式识别等方面的基本技术。其次,介绍了连续语音识别搜索算法的基本原理,对常用的基于动态规划思想的Beam剪枝搜索算法进行了深入研究,分析了该算法的不足,从两方面对Beam剪枝搜索算法进行了改进:使用自适应的裁剪门限代替固定的裁剪门限,提出了基于活动模型数变化的状态层自适应剪枝搜索算法,根据搜索初期阶段模型最少驻留帧数和活动模型数变化的关系自适应的改变裁剪门限;另一方面,提出了基于当前搜索路径的最高概率得分和平均概率得分变化的词层自适应剪枝搜索算法。最后将状态层和词层相结合的自适应剪枝算法与语音识别引擎相结合,利用SAPI接口调用优化后的语音识别引擎来完成了发音错误系统的设计与开发。实现了语音合成、语音识别和评分报错功能,并给出具体的工作流程和实现的关键代码。测试结果表明本系统较好地满足了连续语音识别的要求,学习者经过训练之后,其识别率可以达到81.2%,这也验证了状态层和词层相结合的自适应剪枝算法是可行的。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题的来源,背景及研究意义
  • 1.2 语音识别的研究进展与现状
  • 1.3 课题的研究内容
  • 1.4 论文的组织结构
  • 第二章 语音识别技术的基本原理
  • 2.1 语音识别的处理过程
  • 2.2 预处理
  • 2.2.1 语音采样
  • 2.2.2 预加重
  • 2.2.3 分帧加窗
  • 2.2.4 短时能量,短时平均过零率和短时自相关函数分析
  • 2.2.5 端点检测
  • 2.3 特征参数提取
  • 2.4 模型的训练和匹配
  • 2.4.1 动态时间归整技术(DTW)
  • 2.4.2 隐马尔可夫模型技术(HMM)
  • 2.4.3 人工神经网络技术(ANN)
  • 2.5 小结
  • 第三章 基于隐马尔可夫模型的语音识别算法的研究
  • 3.1 基于隐马尔可夫模型的语音识别
  • 3.1.1 隐马尔可夫模型的三个基本问题
  • 3.1.1.1 估值问题
  • 3.1.1.2 解码问题
  • 3.1.1.3 训练问题
  • 3.1.2 连续密度隐马尔可夫模型
  • 3.1.3 隐马尔可夫模型的类型与结构
  • 3.2 基于隐马尔可夫模型的搜索算法
  • 3.2.1 连续语音识别搜索算法
  • 3.2.2 Beam 剪枝搜索算法
  • 3.3 Beam 剪枝搜索算法的改进
  • 3.3.1 状态层自适应剪枝
  • 3.3.2 词层自适应剪枝
  • 3.4 小结
  • 第四章 发音错误识别系统的设计
  • 4.1 系统概述
  • 4.2 系统建设目标
  • 4.3 系统设计方案的选择
  • 4.4 系统的总体设计
  • 4.5 小结
  • 第五章 发音错误识别系统的实现
  • 5.1 采用的技术架构
  • 5.2 模块的划分
  • 5.2.1 语音合成模块
  • 5.2.2 语音识别模块
  • 5.2.3 发音错误识别模块
  • 5.3 系统的实现
  • 5.3.1 语音合成
  • 5.3.2 语音识别
  • 5.3.2.1 识别引擎处理
  • 5.3.2.2 初始化 COM 对象
  • 5.3.2.3 创建识别上下文
  • 5.3.2.4 设置相关联的 TTS
  • 5.3.2.5 加载语法
  • 5.3.2.6 激活识别引擎
  • 5.3.2.7 注册事件通知机制
  • 5.3.2.8 设置事件过滤
  • 5.3.2.9 释放 COM 对象
  • 5.3.3 发音错误识别
  • 5.4 运行效果测试
  • 5.5 小结
  • 第六章 总结和展望
  • 6.1 主要工作及贡献
  • 6.2 下一步的研究工作
  • 参考文献
  • 致谢
  • 攻读学位期间公开发表的论文和参与的项目
  • 附录
  • 相关论文文献

    • [1].连续语音识别技术及其应用前景分析[J]. 数码世界 2016(01)
    • [2].MRCPv2应用于实时连续语音识别的研究[J]. 科技创业月刊 2016(03)
    • [3].基于瓶颈特征的藏语拉萨话连续语音识别研究[J]. 北京大学学报(自然科学版) 2018(02)
    • [4].连续语音识别技术及其应用前景分析[J]. 网络安全技术与应用 2014(08)
    • [5].试分析连续语音识别中的关键技术[J]. 信息与电脑(理论版) 2011(06)
    • [6].关于连续语音识别率优化仿真研究[J]. 计算机仿真 2016(03)
    • [7].基于区别特征系统的连续语音识别模型研究[J]. 合肥学院学报(自然科学版) 2014(01)
    • [8].大词汇量连续语音识别中搜索空间的表示及相关搜索方法的研究进展[J]. 计算机科学 2008(02)
    • [9].汉语连续语音识别结果评价算法研究[J]. 中国通信 2010(02)
    • [10].基于隐马尔可夫模型的维吾尔语连续语音识别系统[J]. 计算机应用 2009(07)
    • [11].面向大词汇量的维吾尔语连续语音识别研究[J]. 计算机工程与应用 2013(09)
    • [12].汉语大词汇量连续语音识别系统[J]. 科学中国人 2008(11)
    • [13].嵌入式语音识别系统性能分析[J]. 微计算机应用 2008(07)
    • [14].走在开复的情怀里[J]. 青年教师 2009(02)
    • [15].基于音节的维吾尔语大词汇连续语音识别系统[J]. 清华大学学报(自然科学版) 2013(06)
    • [16].汉语大词汇量连续语音识别系统研究进展[J]. 中文信息学报 2009(01)
    • [17].高噪声背景下舰船指挥舱大词汇量连续语音识别方法[J]. 舰船科学技术 2019(08)
    • [18].一种联合语种识别的新型大词汇量连续语音识别算法[J]. 自动化学报 2012(03)
    • [19].基于HMM的黔东南少数民族地区苗语连续语音识别系统研究[J]. 电脑知识与技术 2017(31)
    • [20].基于混合DBNN-BLSTM模型的大词汇量连续语音识别[J]. 纺织高校基础科学学报 2018(01)
    • [21].维吾尔语连续语音识别技术研究[J]. 现代计算机(专业版) 2010(01)
    • [22].基于多流多状态动态贝叶斯网络的音视频连续语音识别[J]. 电子与信息学报 2008(12)
    • [23].基于ANN/HMM混合模型汉语大词表连续语音识别系统[J]. 智能计算机与应用 2012(05)
    • [24].基于词网模型的连续语音识别系统MYASR的设计与开发[J]. 信息与电脑(理论版) 2011(24)
    • [25].基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究[J]. 西北工业大学学报 2008(02)
    • [26].基于多流动态贝叶斯网络的音视频连续语音识别[J]. 西北工业大学学报 2008(04)
    • [27].判别式训练方法在连续语音识别中的应用[J]. 大众科技 2009(12)
    • [28].中文连续语音识别系统音素建模单元集的构建[J]. 清华大学学报(自然科学版) 2011(09)
    • [29].语料资源缺乏的连续语音识别方法的研究[J]. 自动化学报 2010(04)
    • [30].基于Transformer的越南语连续语音识别[J]. 信息工程大学学报 2020(02)

    标签:;  ;  ;  ;  

    语音识别技术的研究及其在发音错误识别系统中的应用
    下载Doc文档

    猜你喜欢