语音识别中的后处理技术研究

语音识别中的后处理技术研究

论文摘要

普通话大词汇量连续语音识别的研究已经进行了十多年,虽已取得了显著进展,但距离广泛应用还有相当的距离。语音识别后处理是将前处理所得到的音节流转换为汉字流的过程。研究发现,语音识别系统的后处理对提高系统性能具有十分重要的意义。人类听觉实验表明,人只能听清连续语音流中70%的音节,剩余的30%是靠上下文知识来猜测理解的。因此,语音识别后处理受到了广泛的关注,得到了越来越深入的研究。本文主要对普通话大词汇量连续语音识别后处理中的语言模型自适应、解码策略、错误处理等问题进行了研究,主要工作与创新包括以下几个方面:1.汉语混淆网络算法首先研究了最小贝叶斯风险解码准则以及基于最小贝叶斯解码准则进行最小字错误率解码的若干方法,例如:基于N-best lists的方法、基于word lattice的方法等。在此基础上,考虑到汉语语言的特点,提出一种构造汉语词混淆网络的算法,对于汉语词格(wordlattice)中的长弧,在强制对齐时根据其发音特点快速有效地加入null弧。实验表明改进的构造汉语词混淆网络进行解码的方法与MAP(Maximum a posterior)解码、先前的各种错误率最小化算法相比,有效地降低了普通话大词汇量连续语音识别词错误率。汉语中一个词一般由1—4个汉字组成,由不同数目汉字组成的词的发音时间长短差别比较大,造成构造的汉语词混淆网络中包含了大量的null弧。本文提出一种构造汉字混淆网络来获取具有最小字错误率的识别结果假设的方法,这种算法显著地减少了构造的汉字混淆网络中的null弧的数目。实验结果表明这种构造汉字混淆网络进行解码的方法有效降低了识别结果的字错误率。2.解码结果的错误检测与纠正研究在普通话大词汇量连续语音识别中,识别结果出错的现象和原因非常复杂。本文首先分析了一些常见的普通话大词汇量连续语音识别结果中的错误及其出现的原因。在此基础上,采用基于转换的学习方法从混淆网络中学习纠错规则,实验表明应用这些纠错规则能够有效降低识别结果的词错误率。考虑到汉语语言的复杂性以及用于错误纠正规则学习的训练语料集有限,不能覆盖所有的错误现象,本文使用统计的方法进行错误的检测与纠正。具体地,本文提出一种基于支撑向量机SVM(SupportVector Machines)进行错误检测与纠正的框架,首先使用SVM对识别结果假设字串中的每个字进行分类,判断其正确性;接下来对于分类为错误的字基于汉语字混淆网络构造候选字序列,对候选字序列重新打分,选择最高得分的字串作为错误纠正的结果。实验结果表明这种方法能够有效地检测出识别结果中的错误并进行纠正,降低了字错误率。3.语音识别中的区分性语言模型研究语言模型自适应是根据不断变化的应用环境,调整语言模型中各种现象出现的概率,以适应不同应用环境的特征。本文将Boosting、Perceptron以及最小化样本风险三种算法用于训练语音识别系统中的N-Gram语言模型,使其对特定领域具有自适应能力。实验结果表明使用这三种算法训练的N-Gram语言模型降低了特定领域的语音识别结果的词错误率。其中Perceptron算法训练的N-Gram语言模型的领域自适应能力最好。所以本文在通用领域的语音识别中,将输入的语音与识别输出的汉语词混淆网络作为训练样本,使用Perceptron算法训练区分性语言模型,并用这种语言模型对汉语词混淆网络重新打分。实验结果表明这种方法有效地降低了识别结果的词错误率。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 引言
  • 1.2 语音识别发展历史、现状
  • 1.3 大词汇量连续语音识别存在的问题
  • 1.4 论文研究意义
  • 1.5 论文结构安排
  • 第二章 语音识别中的后处理研究概述
  • 2.1 引言
  • 2.2 大词汇量连续语音识别基本框架
  • 2.3 汉语语音学基础
  • 2.4 前处理技术综述
  • 2.4.1 前端处理与特征提取
  • 2.4.2 声学模型
  • 2.5 语言模型
  • 2.5.1 基于规则的语言模型
  • 2.5.2 统计语言模型
  • 2.5.2.1 N-Gram模型
  • 2.5.2.2 N-Gram模型的数据平滑
  • 2.5.2.3 N-Gram模型的评估方法
  • 2.6 解码
  • 2.6.1 搜索策略分类
  • 2.6.2 常用搜索算法
  • 2.6.2.1 Time-synchronous viterbi beam search
  • 2.6.2.2 堆栈译码算法
  • 2.6.3 一些有用的搜索技术
  • 2.6.4 中间识别结果形式
  • 2.7 错误处理
  • 2.7.1 错误原因分析
  • 2.7.2 错误处理
  • 2.7.2.1 错误检测
  • 2.7.2.2 错误纠正
  • 2.8 小结
  • 第三章 汉语混淆网络算法
  • 3.1 引言
  • 3.2 最小贝叶斯风险解码准则
  • 3.3 最小字错误率解码方法
  • 3.3.1 基于N-best lists的方法
  • 3.3.2 基于word lattice的方法
  • 3.3.2.1 混淆网络
  • 3.3.2.2 其它方法
  • 3.4 汉语词混淆网络算法
  • 3.4.1 算法
  • 3.4.2 实验结果及分析
  • 3.5 汉语字混淆网络算法
  • 3.5.1 算法
  • 3.5.2 实验结果及分析
  • 3.6 小结
  • 第四章 语音识别结果的错误检测与纠正研究
  • 4.1 引言
  • 4.2 普通话大词汇量连续语音识别结果的错误和原因
  • 4.2.1 常见的普通话大词汇量连续语音识别结果错误
  • 4.2.2 原因
  • 4.3 基于转换的语音识别结果错误纠正规则学习
  • 4.3.1 基于转换的学习
  • 4.3.2 基于转换的学习识别结果的错误纠正规则
  • 4.3.3 实验结果及分析
  • 4.3.3.1 实验配置
  • 4.3.3.2 实验结果
  • 4.4 基于SVM的识别结果错误检测与纠正
  • 4.4.1 支撑向量机
  • 4.4.2 基于SVM的错误检测与错误纠正方法
  • 4.4.2.1 错误检测
  • 4.4.2.2 错误纠正
  • 4.4.3 实验结果及分析
  • 4.4.3.1 实验配置
  • 4.4.3.2 实验结果
  • 4.5 小结
  • 第五章 语音识别中的区分性语言模型研究
  • 5.1 引言
  • 5.2 语言模型自适应技术
  • 5.2.1 自适应框架
  • 5.2.2 常用的自适应技术
  • 5.2.2.1 基于cache的动态自适应
  • 5.2.2.2 领域自适应
  • 5.3 语言模型自适应的区分性训练方法
  • 5.3.1 三种常用的语言模型区分性训练算法
  • 5.3.1.1 符号定义
  • 5.3.1.2 Boosting算法
  • 5.3.1.3 Perceptron算法
  • 5.3.1.4 最小化样本风险算法
  • 5.3.2 实验结果及分析
  • 5.4 基于感知器的区分性语言模型及其在语音识别中应用
  • 5.4.1 通用的基于感知器的区分性语言模型
  • 5.4.1.1 通用区分性语言模型定义
  • 5.4.1.2 用于模型训练的感知器算法
  • 5.4.2 基于感知器的区分性语言模型训练及解码应用
  • 5.4.2.1 N-Gram的加权有限自动机表示
  • 5.4.2.2 应用基于感知器的区分性语言模型进行解码
  • 5.4.2.3 语音识别中的区分性语言模型训练
  • 5.4.3 实验
  • 5.4.3.1 实验设置
  • 5.4.3.2 实验结果及分析
  • 5.5 小结
  • 第六章 总结与展望
  • 6.1 论文总结
  • 6.2 研究展望
  • 参考文献
  • 博士期间发表的论文
  • 致谢
  • 相关论文文献

    • [1].人工智能下深度学习的语音识别方法分析[J]. 计算机产品与流通 2020(06)
    • [2].基于语音识别的演讲教学系统[J]. 计算机应用 2020(S1)
    • [3].人工智能下深度学习的语音识别方法分析[J]. 电子技术与软件工程 2020(11)
    • [4].语音识别声控小车设计[J]. 中国科技信息 2019(Z1)
    • [5].语音识别大揭秘:计算机如何处理声音?[J]. 中国新通信 2019(04)
    • [6].关于深度学习的语音识别应用研究[J]. 科技经济导刊 2019(12)
    • [7].关于语音识别在空调上的应用与改善[J]. 日用电器 2019(07)
    • [8].语音识别专利技术综述[J]. 河南科技 2019(24)
    • [9].数字语音识别与合成[J]. 电子世界 2019(15)
    • [10].浅谈语音识别[J]. 内蒙古科技与经济 2019(18)
    • [11].基于智能声控需求的语音识别研究[J]. 通讯世界 2019(10)
    • [12].语音识别64年大突破[J]. 机器人产业 2016(06)
    • [13].语音识别为何“叫好不叫座”?[J]. 通信世界 2016(16)
    • [14].语音识别的未来之路[J]. 通信世界 2016(16)
    • [15].动动嘴 让文字自动输入[J]. 电脑爱好者(普及版) 2010(11)
    • [16].带着使命感出发[J]. 英语学习 2017(01)
    • [17].荣威eRX5静态体验 “人性化”语音识别是亮点[J]. 新能源汽车新闻 2017(01)
    • [18].语音识别老祖宗[J]. 经营者(汽车商业评论) 2017(03)
    • [19].智能电视,语音识别或成突破口[J]. 消费指南 2017(05)
    • [20].宝马 用科技打造“未来之家”[J]. 中国汽车市场 2016(11)
    • [21].小学生单词语音识别技能培养研究[J]. 教师博览(科研版) 2017(04)
    • [22].语音识别,或是人工智能下一“风口”[J]. 晚霞 2017(06)
    • [23].端到端语音识别的研究进展与挑战[J]. 中国安防 2020(11)
    • [24].一种低成本语音识别解决方案[J]. 通信技术 2019(12)
    • [25].视频会议系统智能语音识别技术应用研究[J]. 数字技术与应用 2020(05)
    • [26].简述语音识别的实现过程[J]. 科技传播 2019(02)
    • [27].基于深度学习的语音识别方法研究[J]. 智能计算机与应用 2019(02)
    • [28].远场语音识别方法研究[J]. 信息技术与标准化 2018(08)
    • [29].基于深度学习的语音识别方法[J]. 电子技术与软件工程 2019(08)
    • [30].石油石化设备巡检小车语音识别与控制系统设计与实现[J]. 电子设计工程 2017(22)

    标签:;  ;  ;  ;  ;  ;  

    语音识别中的后处理技术研究
    下载Doc文档

    猜你喜欢