连续语音识别解码技术的研究

连续语音识别解码技术的研究

论文摘要

解码器是连续语音识别系统中最能直观反映系统性能的重要组成部分。解码技术的研究目的就是要优化解码过程,使解码器能够在得到较高精度识别结果的同时有着较快的识别速度。本文围绕如何保持解码精度与速度之间的均衡,重点对一遍解码中解码参数的优化以及二次解码过程展开深入研究,主要工作概括为以下四个方面:(1)研究了全局阈值、词尾阈值、激活模型数、令牌数四维剪枝阈值参数的优化,提出了一种多维剪枝阈值参数联合优化的算法。该算法针对目前单一剪枝阈值优化的算法没有考虑到多维阈值参数之间互相影响的问题,首先应用多目标优化理论对阈值参数进行联合优化,然后根据优化结果,采用分段动态阈值的方法进行后处理。实验结果表明,采用新方法优化之后的阈值参数进行一遍解码,解码器的剪枝性能得到明显改善,在保持较高解码精度的同时,大大提高了解码的速度。(2)研究了语言模型权值与插入代价两维解码参数的优化,提出了一种基于词图重估的解码参数优化算法。该算法针对优化过程中参数收敛速度过慢的问题,采用线性搜索与模拟退火搜索相结合的方法对参数空间进行搜索,提高了优化速度,并能使得优化后的参数具有全局最优和对初值稳定性强的优点。实验结果表明,相对于经典的N-Best算法优化,新方法优化的识别速度有所提升,且使用优化后的参数进行一遍解码能更有效降低基线系统词错误率。(3)研究了生成混淆网络实现最小化词错误率解码的过程,提出了一种局部路径对齐的混淆网络生成算法。该算法针对当前主流混淆网络生成算法速度与精度不能兼顾的问题,每次从词图中提取局部路径与基准路径对齐,有效解决了最大后验概率弧对齐算法生成的混淆网络混淆集顺序颠倒的问题;在对齐过程中,根据局部路径与参考路径长度的不同,采取不同的处理方法,也解决了轴对称算法的对齐错误。实验结果表明,新算法生成效率与主流的算法相当,但是其生成混淆网络的解码性能相对于主流算法有所提高。(4)研究了重打分算法,提出了一种基于词图的递归重打分算法。该算法首先把词图变换为一种类似于位置确定的后验概率词图结构,这种结构中的弧只包含声学得分,然后采用该算法搜索出最优结果。与传统的Viterbi重打分的算法相比,新方法无需将知识转化为有限状态机融入到搜索网络中,因此更易结合高层语言学知识进行重打分。实验结果表明,新算法相对于Viterbi搜索的算法,搜索空间大小急剧减少,能很好满足二次解码对速度的要求,且能保持较高的识别精度。

论文目录

  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 语音识别研究现状
  • 1.1.1 国外研究现状
  • 1.1.2 国内研究现状
  • 1.2 连续语音识别关键技术综述
  • 1.2.1 特征提取
  • 1.2.2 声学模型
  • 1.2.3 语言模型
  • 1.2.4 词典的组织
  • 1.2.5 解码
  • 1.3 论文的研究内容及结构安排
  • 1.3.1 论文的研究内容
  • 1.3.2 论文的结构安排
  • 第二章 连续语音识别解码算法及基线系统构建
  • 2.1 语音识别解码基本原理
  • 2.2 解码的基本算法
  • 2.2.1 Viterbi 解码算法
  • 2.2.2 堆栈解码(Stack Decoding)
  • 2.2.3 N-Best 解码
  • 2.2.4 Lattice 解码
  • 2.3 搜索空间的精简
  • 2.3.1 剪枝策略
  • 2.3.2 路径的合并
  • 2.4 实验基线系统及性能评估
  • 2.4.1 实验语料
  • 2.4.2 解码的详细流程
  • 2.4.3 特征提取
  • 2.4.4 模型基元选取与模型训练
  • 2.4.5 实验评估指标
  • 2.4.6 基线系统的构建及性能分析
  • 2.5 小结
  • 第三章 连续语音识别一遍解码参数优化算法研究
  • 3.1 连续语音识别解码阈值参数的优化
  • 3.1.1 目前阈值参数优化方法分析
  • 3.1.2 四种阈值参数间的相互影响分析
  • 3.1.3 多维剪枝阈值参数联合优化算法
  • 3.1.4 多维剪枝阈值参数联合优化算法实验
  • 3.2 基于词图重估的解码参数优化
  • 3.2.1 目前两维参数优化方法分析
  • 3.2.2 经典N-Best 优化估计算法
  • 3.2.3 基于词图重估的解码参数优化算法
  • 3.2.4 基于词图重估的解码参数优化算法实验
  • 3.3 小结
  • 第四章 基于局部路径对齐的最小化词错误率解码
  • 4.1 贝氏风险最小化准则
  • 4.2 最小化词错误率解码的原理
  • 4.3 词后验概率计算方法
  • 4.4 基于Lattice 的最小化词错误率解码
  • 4.5 基于局部路径对齐的最小化词错误率解码
  • 4.5.1 常用的CN 生成算法分析
  • 4.5.2 局部路径对齐的CN 生成算法
  • 4.5.3 基于CN 的最小化词错误率解码
  • 4.6 实验分析
  • 4.6.1 实验条件
  • 4.6.2 CN 生成算法与最小化词错误率解码性能测试
  • 4.6.3 基于Lattice 与CN 的最小化词错误率解码比较
  • 4.7 小结
  • 第五章 基于Lattice 的递归重打分算法研究
  • 5.1 基于CN 的递归重打分算法
  • 5.2 CN 的递归重打分算法分析
  • 5.3 基于Lattice 的递归重打分算法
  • 5.3.1 ASL 的生成
  • 5.3.2 基于Lattice 的递归重打分算法过程
  • 5.4 实验分析
  • 5.4.1 实验条件
  • 5.4.2 不同的CN 重打分方法比较
  • 5.4.3 Lattice 重打分实验结果比较
  • 5.4.4 CN 与Lattice 递归重打分结果比较
  • 5.5 小结
  • 结束语
  • 一、论文工作总结
  • 二、进一步研究方向
  • 参考文献
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    • [1].连续语音识别技术及其应用前景分析[J]. 数码世界 2016(01)
    • [2].MRCPv2应用于实时连续语音识别的研究[J]. 科技创业月刊 2016(03)
    • [3].基于瓶颈特征的藏语拉萨话连续语音识别研究[J]. 北京大学学报(自然科学版) 2018(02)
    • [4].连续语音识别技术及其应用前景分析[J]. 网络安全技术与应用 2014(08)
    • [5].试分析连续语音识别中的关键技术[J]. 信息与电脑(理论版) 2011(06)
    • [6].关于连续语音识别率优化仿真研究[J]. 计算机仿真 2016(03)
    • [7].基于区别特征系统的连续语音识别模型研究[J]. 合肥学院学报(自然科学版) 2014(01)
    • [8].大词汇量连续语音识别中搜索空间的表示及相关搜索方法的研究进展[J]. 计算机科学 2008(02)
    • [9].汉语连续语音识别结果评价算法研究[J]. 中国通信 2010(02)
    • [10].基于隐马尔可夫模型的维吾尔语连续语音识别系统[J]. 计算机应用 2009(07)
    • [11].面向大词汇量的维吾尔语连续语音识别研究[J]. 计算机工程与应用 2013(09)
    • [12].汉语大词汇量连续语音识别系统[J]. 科学中国人 2008(11)
    • [13].嵌入式语音识别系统性能分析[J]. 微计算机应用 2008(07)
    • [14].走在开复的情怀里[J]. 青年教师 2009(02)
    • [15].基于音节的维吾尔语大词汇连续语音识别系统[J]. 清华大学学报(自然科学版) 2013(06)
    • [16].汉语大词汇量连续语音识别系统研究进展[J]. 中文信息学报 2009(01)
    • [17].高噪声背景下舰船指挥舱大词汇量连续语音识别方法[J]. 舰船科学技术 2019(08)
    • [18].一种联合语种识别的新型大词汇量连续语音识别算法[J]. 自动化学报 2012(03)
    • [19].基于HMM的黔东南少数民族地区苗语连续语音识别系统研究[J]. 电脑知识与技术 2017(31)
    • [20].基于混合DBNN-BLSTM模型的大词汇量连续语音识别[J]. 纺织高校基础科学学报 2018(01)
    • [21].维吾尔语连续语音识别技术研究[J]. 现代计算机(专业版) 2010(01)
    • [22].基于多流多状态动态贝叶斯网络的音视频连续语音识别[J]. 电子与信息学报 2008(12)
    • [23].基于ANN/HMM混合模型汉语大词表连续语音识别系统[J]. 智能计算机与应用 2012(05)
    • [24].基于词网模型的连续语音识别系统MYASR的设计与开发[J]. 信息与电脑(理论版) 2011(24)
    • [25].基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究[J]. 西北工业大学学报 2008(02)
    • [26].基于多流动态贝叶斯网络的音视频连续语音识别[J]. 西北工业大学学报 2008(04)
    • [27].判别式训练方法在连续语音识别中的应用[J]. 大众科技 2009(12)
    • [28].中文连续语音识别系统音素建模单元集的构建[J]. 清华大学学报(自然科学版) 2011(09)
    • [29].语料资源缺乏的连续语音识别方法的研究[J]. 自动化学报 2010(04)
    • [30].基于Transformer的越南语连续语音识别[J]. 信息工程大学学报 2020(02)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    连续语音识别解码技术的研究
    下载Doc文档

    猜你喜欢