英语作为第二语言的多媒体语音数据库设计制作及初步测试

论文摘要

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，近年来，计算机语音识别的应用有了长足的进展，基于英语的特殊地位，世界上对于英语作为第一语言的语音数据库的设计和制作已经很多。但由于英语的日益普及，以英语作为第二语言的人们越来越多，因此建立一个以英语作为第二语言的语音数据库是很有必要的。不同的国家，有不同的语言，其发音都有各自的特点，从而影响了作为第二语言的英语发音也出现了不同的特色。我们这里主要考虑在中国地区，设计与制作以英语作为第二语言的语音数据库，并对该数据库在构建的HTK语音识别系统中进行了一系列的测试。本文所做工作及创新有以下：1、在Linux环境下，构建了HTK语音识别系统。2、我们对特征参数做了一些研究改进：在识别系统中采用能够反映人对语音的感知特征的美尔频率倒谱系数(MFCC)作为特征参数，将语音信号的动态特征(瞬变特征)也加以考虑，实验证明这种增加混合特征参数的方法，能使系统的识别率有显著的提高。比较了各种参数的识别率，得到了识别效果最佳时的特征参数。3、在模型训练时，采用了隐马尔可夫模型，实验测试了不同的状态数，得到了为10将达到最好的识别效果。4、对语音数据库进行了设计、制作及训练模型过程，实验测试(参数取前面实验的结论)标准语音库的数据(采用AVICAR现有的数据库)和收集的语音库数据，进行了比较。发现收集的语音数据的识别率大大低于标准语音数据的识别率，得出收集不同地域语音数据库重要性的结论。分析了识别率低的原因；然后对收集的语音库中的数据根据不同的地域进行相互比较，总结识别率差异的原因，为设计制作语音库提供了借鉴的经验。5、对训练的模型进行了改进：将TIDIGIT中的中国人语音数据挑选出来，加入一次、两次、三次到AVICAR中的数据中一起训练模型，再对进行识别的测试比较，分析结果得到，识别率有所提高，由此可见，利用针对地域性强的模型进行语音识别，将大大提高识别效果。

论文目录

摘要

Abstract

第1章绪论

1.1 语音识别技术的研究历程

1.1.1 语音识别技术的前期研究

1.1.2 语音识别技术的中期研究

1.1.3 语音识别技术的研究现状

1.2 语音识别的应用领域

1.3 建立数据库的意义

1.4 本文所做工作及章节安排

1.4.1 本文所做的主要工作

1.4.2 本文章节的主要安排

第2章语音识别系统的分类及预处理

2.1 语音识别系统的分类

2.2 语音识别系统的基本结构

2.3 语音识别系统的预处理

2.3.1 语音采样

2.3.2 预加重

2.3.3 加窗

2.3.4 短时能量

2.3.5 短时过零率

2.3.6 端点检测

2.4 本章小结

第3章语音识别特征提取及改进

3.1 语音识别的特征提取

3.2 线性预测系数（LPC）

3.3 线性预测倒谱系数（LPCC）

3.4 美尔频标倒谱系数（MFCC）及改进

3.4.1 美尔频标倒谱系数（MFCC）

3.4.2 ΔMFCC和ΔΔMFCC

3.4.3 能量计算

3.5 其它参数

3.6 本章小结

第4章语音识别模型的训练及匹配

4.1 模型训练方法

4.1.1 偶然性训练法

4.1.2 鲁棒性训练法

4.1.3 聚类训练法

4.2 模型匹配方法

4.2.1 动态时间规整（DTW）

4.2.2 隐马尔可夫模型（HMM）

4.3 本章小结

第5章数据库的设计收集及测试分析

5.1 本语音数据库的设计收集

5.1.1 录音人来源

5.1.2 录音人数及环境设备

5.1.3 本语音数据库的录音内容

5.1.4 本语音数据库的存储形式

5.2 构建HTK语音识别系统

5.3 实验参数测试及分析

5.3.1 特征参数测试

5.3.2 状态数测试

5.3.3 实验环境及模型参数设置

5.4 数据测试部分

5.4.1 数字部分及分析

5.4.2 字母部分

5.5 模型改进测试

5.6 本章小结

第6章总结与展望

6.1 本文所做的工作

6.2 本文的总结

6.3 对以后研究的展望

致谢

参考文献

附录1

英语作为第二语言的多媒体语音数据库设计制作及初步测试

论文摘要

论文目录

相关论文文献

猜你喜欢