基于语音识别技术的中文语音路名查询系统的实现和语言模型的研究

论文摘要

语音是人类进行交流的一种基本且十分便捷的工具。在科技高速发展的时代,用数字化的技术进行语音信号的转换、存储、传送、识别和合成已成为有广阔应用前景的研究领域。语音识别是其中一个重要的分支,它是指机器通过学习实现从语音信号到文字符号的理解过程,是一种十分重要的人机交互方式。中文语音路名查询系统的研究与实现,建立在语音识别的理论基础上,以HTK工具包为软件核心。HTK(HMM Toolkit)是英国剑桥大学开发的一个用于创建和处理隐马尔可夫模型的实验工具包。由于其在语音识别方面处于相对领先地位,且源代码公开便于系统开发调试,所以是进行语音识别研究的一个理想平台。本文介绍了语音识别相关理论的研究和HTK语音识别系统处理流程,提出了基于语音识别技术的中文语音路名查询系统的设计和实现,可实现用户实时中文语音输入路名的情况下,系统将识别结果以汉字方式显示在屏幕上,也可进行WAV语音存储文件的识别和测试。本系统小巧快速,具有较高的识别率。在此基础上进一步延伸,可拓展出诸多应用于电话拨号系统、信息网络查询、家庭服务、声控智能玩具等相关领域的产品。由于语言模型在语音识别过程中起到的重要作用,论文最后介绍了语音识别领域中语言模型相关的理论分析和实验比较结果,使本文的内容覆盖了语音识别系统的主要构造组成。

论文目录

摘要

ABSTRACT

第一章序论

1.1 引言

1.2 语音识别技术发展历史

1.3 语音识别技术发展现状和前景

1.4 语音识别研究面临的困难

1.5 论文结构安排

第二章语音识别基本原理

2.1 语音识别系统分类

2.2 语音识别系统组成

2.3 语音识别关键技术

2.3.1 语音识别单元选取

2.3.2 语音特征参数提取

2.3.3 模式识别技术

第三章隐马尔可夫模型

3.1 隐马尔可夫模型的定义

3.1.1 离散马尔可夫过程

3.1.2 隐马尔可夫模型的概念

3.1.3 隐马尔可夫模型的参数

3.2 隐马尔可夫模型的三个问题

3.2.1 前向－后向算法

3.2.2 Viterbi 算法

3.2.3 Baum-Welch 算法

3.3 隐马尔可夫模型在语音识别技术中的应用

第四章中文语音路名查询系统的实现

4.1 HTK 工具包简介

4.1.1 HTK 软件结构

4.1.2 HTK 工具包分类

4.2 中文语音路名查询系统设计分析和实现

4.2.1 准备语音数据

4.2.2 创建配置文件

4.2.3 选取识别单元

4.2.4 建立HMM 原型

4.2.5 训练声学模型

4.2.6 编写任务语法

4.2.7 编写发音字典

4.2.8 识别测试

4.2.9 分析工具

4.2.10 实验结果

第五章语言模型的研究和建立

5.1 基于规则的语言模型

5.2 基于词的N-GRAM 统计语言模型

5.3 基于类的N-GRAM 统计语言模型

5.4 统计语言模型的平滑技术

5.4.1 Good-Turing 估计算法

5.4.2 Katz 回退算法

5.4.3 绝对折扣算法

5.5 语言模型的评价标准

5.6 语言模型实验

5.6.1 Bigram 模型对语音识别系统的影响

5.6.2 语料规模和类别相关实验

5.6.3 基于类的N-gram 模型实验

5.6.4 语言模型折扣技术实验

5.6.5 语言模型实验总结

第六章结束语

参考文献

致谢

攻读学位期间发表的学术论文目录

基于语音识别技术的中文语音路名查询系统的实现和语言模型的研究

论文摘要

论文目录

相关论文文献

猜你喜欢