基于Sphinx的汉语连续语音识别

基于Sphinx的汉语连续语音识别

论文摘要

汉语连续语音识别拥有可观的应用前景和深远的研究价值。汉语的发音短、混淆性高、方言多等特性,使得汉语连续语音识别比英语连续语音识别难度更大,成为目前语音识别领域研究的热点和难点问题。本文在卡内基梅隆大学开发的Sphinx语音识别系统的基础上,结合汉语发音特点对中等词汇量、非特定人的汉语连续语音识别系统进行了基础性的研究。汉语连续语音识别实质上是在汉语的声学、语言学等多层知识定义的状态空间内搜索最符合语音输入的词序列,需要涉及到特征提取,声学模型、语言模型、搜索算法等方面的知识和技术。Sphinx系统代表着连续语音识别的较高水平,本文正是借鉴了其先进的技术,结合汉语发音的特点构建了汉语连续语音识别系统。语音的声学模型和识别理论是构建语音识别系统的基础。完整的连续语音识别系统主要包括四个部分:特征提取,声学模型,语言模型和搜索算法,本文就是根据这四个部分展开的。本文首先介绍了汉语连续语音识别的发展历史和相关理论知识,接着按照语音识别系统的处理步骤详细地分析了各个过程,重点对MFCC特征提取做了详细的分析。在深入研究Sphinx系统中声学模型训练工具Sphinxtrain和语言模型训练工具Cmucmltk代码的基础上,通过修改相关参数,训练了适合汉语识别的声学模型和语言模型。模型训练完成之后研究解码端Viterbi搜索算法,结合识别引擎Pocketsphinx实现了汉语连续语音识别系统的构建。文章最后通过实验和数据分析,验证了系统的有效性。本文主要进行了两个系统的设计:首先以CASIA汉语数字串语音库训练声学模型和语言模型,构建了汉语连续数字识别系统,该系统句子识别率达到了90%,词识别率高达97.2%;其次以CASIA98-99语音测试库训练声学模型和语言模型,建立了一个中等词汇量的汉语连续语音识别系统,该系统性能较之前者识别性能欠佳,句识别率为70%,词识别率为96.7%。全部数据显示了系统的有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 语音识别概述
  • 1.1.1 语音识别的发展历史与现状
  • 1.1.2 国内语音识别的发展历史与现状
  • 1.1.3 连续语音识别的难点
  • 1.1.4 语音识别的分类
  • 1.2 语音识别与其他学科的关系
  • 1.3 语音识别关键技术
  • 1.4 论文由来
  • 1.4.1 课题研究目的和意义
  • 1.4.2 论文结构安排
  • 第二章 Sphinx 语音识别系统
  • 2.1 Sphinx 语音识别引擎简介
  • 2.2 Sphinx 语音识别介绍
  • 2.3 特征提取
  • 2.3.1 音频信号格式
  • 2.3.2 预加重
  • 2.3.3 分帧加窗
  • 2.3.4 快速傅里叶变换(FFT)
  • 2.3.5 Mel 频率滤波器组
  • 2.3.6 对数变换和DCT
  • 2.4 声学模型
  • 2.4.1 概述
  • 2.4.2 汉语语音特性
  • 2.4.3 上下文相关音素模型
  • 2.5 语言模型
  • 2.6 解码器
  • 2.7 小结
  • 第三章 基于SphinxTrain 的声学模型训练
  • 3.1 HMM 的基本概念
  • 3.2 HMM 的三个基本问题及其解决方案
  • 3.2.1 识别问题的解决方案
  • 3.2.2 路径问题的解决方案
  • 3.2.3 模型问题的解决方案
  • 3.3 HMM 的分类
  • 3.4 SphinxTrain 简介
  • 3.5 声学模型的训练
  • 3.5.1 数据准备
  • 3.5.2 矢量量化
  • 3.5.3 训练CI 模型
  • 3.5.4 训练未聚类的CD 模型
  • 3.5.5 决策树的建立
  • 3.5.6 训练聚类的CD 模型
  • 3.5.7 删除插值
  • 3.6 小结
  • 第四章 汉语连续语音识别系统的构建和实现
  • 4.1 连续语音识别系统构建
  • 4.1.1 语音库介绍
  • 4.1.2 特征提取
  • 4.1.3 声学模型训练
  • 4.1.4 语言模型训练
  • 4.1.5 解码器
  • 4.1.6 实验环境及识别结果的计算
  • 4.2 基于Sphinx 的汉语连续数字识别
  • 4.2.1 语音库的选择
  • 4.2.2 特征提取
  • 4.2.3 声学模型和语言模型的训练
  • 4.2.4 实验结果及性能分析
  • 4.3 基于Sphinx 的汉语连续语音识别
  • 4.3.1 语音库的选择
  • 4.3.2 特征提取
  • 4.3.3 声学模型和语言模型的训练
  • 4.3.4 实验结果及性能分析
  • 4.4 小结
  • 第五章 总结与展望
  • 5.1 课题工作的总结
  • 5.2 展望
  • 参考文献
  • 致谢
  • 研究生期间发表的论文
  • 相关论文文献

    • [1].连续语音识别技术及其应用前景分析[J]. 数码世界 2016(01)
    • [2].MRCPv2应用于实时连续语音识别的研究[J]. 科技创业月刊 2016(03)
    • [3].基于瓶颈特征的藏语拉萨话连续语音识别研究[J]. 北京大学学报(自然科学版) 2018(02)
    • [4].连续语音识别技术及其应用前景分析[J]. 网络安全技术与应用 2014(08)
    • [5].试分析连续语音识别中的关键技术[J]. 信息与电脑(理论版) 2011(06)
    • [6].关于连续语音识别率优化仿真研究[J]. 计算机仿真 2016(03)
    • [7].基于区别特征系统的连续语音识别模型研究[J]. 合肥学院学报(自然科学版) 2014(01)
    • [8].大词汇量连续语音识别中搜索空间的表示及相关搜索方法的研究进展[J]. 计算机科学 2008(02)
    • [9].汉语连续语音识别结果评价算法研究[J]. 中国通信 2010(02)
    • [10].基于隐马尔可夫模型的维吾尔语连续语音识别系统[J]. 计算机应用 2009(07)
    • [11].面向大词汇量的维吾尔语连续语音识别研究[J]. 计算机工程与应用 2013(09)
    • [12].汉语大词汇量连续语音识别系统[J]. 科学中国人 2008(11)
    • [13].嵌入式语音识别系统性能分析[J]. 微计算机应用 2008(07)
    • [14].走在开复的情怀里[J]. 青年教师 2009(02)
    • [15].基于音节的维吾尔语大词汇连续语音识别系统[J]. 清华大学学报(自然科学版) 2013(06)
    • [16].汉语大词汇量连续语音识别系统研究进展[J]. 中文信息学报 2009(01)
    • [17].高噪声背景下舰船指挥舱大词汇量连续语音识别方法[J]. 舰船科学技术 2019(08)
    • [18].一种联合语种识别的新型大词汇量连续语音识别算法[J]. 自动化学报 2012(03)
    • [19].基于HMM的黔东南少数民族地区苗语连续语音识别系统研究[J]. 电脑知识与技术 2017(31)
    • [20].基于混合DBNN-BLSTM模型的大词汇量连续语音识别[J]. 纺织高校基础科学学报 2018(01)
    • [21].维吾尔语连续语音识别技术研究[J]. 现代计算机(专业版) 2010(01)
    • [22].基于多流多状态动态贝叶斯网络的音视频连续语音识别[J]. 电子与信息学报 2008(12)
    • [23].基于ANN/HMM混合模型汉语大词表连续语音识别系统[J]. 智能计算机与应用 2012(05)
    • [24].基于词网模型的连续语音识别系统MYASR的设计与开发[J]. 信息与电脑(理论版) 2011(24)
    • [25].基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究[J]. 西北工业大学学报 2008(02)
    • [26].基于多流动态贝叶斯网络的音视频连续语音识别[J]. 西北工业大学学报 2008(04)
    • [27].判别式训练方法在连续语音识别中的应用[J]. 大众科技 2009(12)
    • [28].中文连续语音识别系统音素建模单元集的构建[J]. 清华大学学报(自然科学版) 2011(09)
    • [29].语料资源缺乏的连续语音识别方法的研究[J]. 自动化学报 2010(04)
    • [30].基于Transformer的越南语连续语音识别[J]. 信息工程大学学报 2020(02)

    标签:;  ;  ;  ;  ;  

    基于Sphinx的汉语连续语音识别
    下载Doc文档

    猜你喜欢