基于有限状态图的语音识别系统的构建

基于有限状态图的语音识别系统的构建

论文摘要

经过Mohri等学者在AT&T的先驱工作,以加权有限状态转换器(WeightedFinite State Transducer,WFST)为框架的大词汇量连续语音识别系统受到了国内外研究机构的关注,目前许多主流的语音识别系统均采用这一框架,如美国IBM、AT&T、日本Titech、瑞士IDIAP等。基于WFST的语音识别系统包括两个阶段:搜索网络的编译和Viterbi解码。本文研究目标是搭建一个基于加权有限状态转换器的语音识别系统。本文工作主要集中在第一阶段,即构建首选识别(1-best)和多候选词图识别(lattice)任务的中、英文搜索网络。我们首先将语音识别中的各种知识源表示成加权有限状态转换器的格式,并使用组合操作将其进行组合得到一个完整的搜索网络,然后使用优化操作对搜索网络进行优化,优化后的搜索网络被等价地转换成有限状态图(Finite State Graph,FSG)的格式,FSG格式的搜索网络在内存中更加紧凑,更适合Viterbi解码。最后,使用实验室开发的通用Viterbi解码器GrpDecoder在FSG格式的搜索网络中进行解码实验。本文分别在中、英文下进行了1-best和lattice实验。大量实验表明,本文构建的识别系统在1-best识别中明显优于HTK和传统的两阶段识别系统,相同识别速度时实现了更低错误率;在lattice识别中取得了与HDecode相当的性能,且优于两阶段系统。另外,实验还表明,在相同的词图错误率下,新系统生成的词图密度要远小于HTK和两阶段识别系统生成的词图密度,这表明新系统产生的词图更加紧致和高效。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 语音识别的背景及意义
  • 1.2 语音识别的历史与现状
  • 1.3 选题背景和研究意义
  • 1.4 论文章节安排
  • 第2章 加权有限状态机理论和有限状态图
  • 2.1 本章引论
  • 2.2 加权有限状态接收器(WFSA)和加权有限状态转换器(WFST)的定义
  • 2.3 加权有限状态机相关操作
  • 2.3.1 组合操作(composition)
  • 2.3.2 确定化操作(determinization)
  • 2.3.3 最小化操作(minimization)
  • 2.4 有限状态图(FSG)的定义
  • 2.5 FSG 和 WFST 的相互转换
  • 第3章 语音识别系统概述
  • 3.1 语音识别系统框架
  • 3.1.1 声学模型
  • 3.1.2 语言模型
  • 3.2 词图
  • 3.3 语音识别中的基本参数说明
  • 3.3.1 实时因子(RTF)
  • 3.3.2 单词错误率(WER)、音节错误率(CER)和词图错误率(GER)
  • 3.3.3 词图密度(WGD)
  • 3.4 加权有限状态转换器在语音识别中的应用
  • 第4章 中英文大词汇量连续语音识别系统的设计
  • 4.1 本章引论
  • 4.2 知识源的 WFST 表示、组合及优化
  • 4.2.1 语言模型(G)的表示
  • 4.2.2 发音词典(L)的表示
  • 4.2.3 上下文相关音子模型(C)的表示
  • 4.2.4 声学模型(H)的表示
  • 4.2.5 搜索网络的构建及优化
  • 4.3 用于词图生成的搜索网络的构建及相关操作
  • 4.3.1 用于词图生成的搜索网络的构建
  • 4.3.2 PushLabel 操作
  • 4.4 GrpDecoder 简介
  • 第5章 性能测试
  • 5.1 本章引论
  • 5.2 FSG 相对于 WFST 的优势
  • 5.3 英文实验
  • 5.3.1 英文实验设置
  • 5.3.2 英文搜索网络的构建及规模
  • 5.3.3 英文 1-best 实验结果
  • 5.3.4 英文 lattice 实验结果
  • 5.4 中文 1-best 实验
  • 5.4.1 中文实验设置
  • 5.4.2 中文搜索网络的构建及规模
  • 5.4.3 中文 1-best 实验结果
  • 5.4.4 中文 lattice 实验结果
  • 第6章 总结与展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].广电智能语音识别系统建设实施方案[J]. 中国有线电视 2020(03)
    • [2].面向语音识别系统的黑盒对抗攻击方法[J]. 小型微型计算机系统 2020(05)
    • [3].压电陶瓷的声带振动语音识别系统[J]. 单片机与嵌入式系统应用 2020(07)
    • [4].分区域方言客服语音识别系统研究[J]. 网络新媒体技术 2019(01)
    • [5].早晚期混响划分对理想比值掩蔽在语音识别性能上的影响[J]. 声学学报 2019(04)
    • [6].嵌入式实时英语语音识别系统的设计与研究[J]. 电子设计工程 2017(08)
    • [7].基于嵌入式的语音识别系统设计与实现[J]. 长春师范大学学报 2017(10)
    • [8].浅析小型语音识别系统的研究和开发[J]. 信息化建设 2015(10)
    • [9].法苑传真[J]. 江淮法治 2016(22)
    • [10].语音识别系统[J]. 少先队活动 2014(05)
    • [11].英语翻译器语音识别系统的设计及功能实现[J]. 微型电脑应用 2018(12)
    • [12].嵌入式语音识别系统的测试方法研究[J]. 计算机技术与发展 2019(07)
    • [13].基于人工智能深度学习的语音识别方法[J]. 信息记录材料 2017(09)
    • [14].一种用于无线通信的数字语音识别系统设计[J]. 现代电子技术 2016(16)
    • [15].英语翻译器语音识别系统设计及其应用[J]. 电子测试 2015(04)
    • [16].简单语音识别系统的设计实现[J]. 中国新通信 2013(16)
    • [17].语音识别系统的硬件设计[J]. 硅谷 2012(02)
    • [18].基于改进谱减法的语音识别系统去噪[J]. 大众科技 2012(12)
    • [19].神田公司采用语音识别系统提高发货效率[J]. 物流技术与应用 2009(06)
    • [20].一种基于隐马尔科夫模型的跑步机语音识别系统设计[J]. 信息技术与信息化 2020(09)
    • [21].智能语音识别系统噪声鲁棒性研究[J]. 信息技术与标准化 2019(06)
    • [22].基于香橙派的智能语音识别系统的设计[J]. 电子测量技术 2019(19)
    • [23].重庆方言语音识别系统的设计与实现[J]. 计算机测量与控制 2018(01)
    • [24].一种语音识别的可定制云计算方法[J]. 中国海洋大学学报(自然科学版) 2014(01)
    • [25].嵌入式语音识别系统研究[J]. 电脑与信息技术 2014(01)
    • [26].实时语音识别系统在家庭监护机器人的实现[J]. 电子设计工程 2012(07)
    • [27].基于小波去噪的语音识别系统[J]. 数字技术与应用 2012(05)
    • [28].出行者信息服务系统中后台语音识别系统的研究[J]. 交通标准化 2011(Z1)
    • [29].基于深度学习的移动端语音识别系统设计[J]. 单片机与嵌入式系统应用 2020(09)
    • [30].嵌入式英语语音识别系统误差自动检测方法研究[J]. 自动化与仪器仪表 2019(09)

    标签:;  ;  ;  

    基于有限状态图的语音识别系统的构建
    下载Doc文档

    猜你喜欢