基于计算机智能聋儿语音康复训练系统的语音识别研究

论文摘要

当今社会,聋儿的语音康复训练已经逐渐受到社会的重视。随着网络及多媒体电脑的普及,聋儿康复系统软件的需求也将越来越大,对其智能化的要求也越来越高。本课题即是来源于一套《汉语语音聋儿计算机智能语言训练系统》的开发。而我们所要开发的聋儿语音康复训练系统不同于现有的语音识别的产品,该系统根据聋儿的发音缺陷,对表示发音声调、语意、情感等信息参数分别处理,有针对性的对聋儿进行语音训练。并将提取的汉语语音参数,转化为可视化且简单易懂的图形,再与动画相结合,经视觉反馈提供给患儿准确的语音信息,使聋儿对自己的发音有个更清楚地认识,又能通过发音提示领悟到这些图形在自己的口型及发音上的实际物理意义,从而达到更好的训练效果。根据聋儿语音训练过程及其使用环境的需求,本文首先介绍了语音的预处理过程,重点研究了单音节汉语语音的声调识别和共性识别方法。从汉语语音的特点出发,提出了适合于聋儿语言康复训练的预处理和识别方法。预处理部分中,主要研究了端点检测方法。在很长一段时间里,语音端点检测算法主要是依据语音信号的时域特性,随着语音处理技术的发展,又出现了很多频域的端点检测方法。这些方法都存在各自的优缺点,根据其使用环境的不同,应该选用不同的端点检测方法。聋儿语言康复训练系统的应用环境为安静的室内,背景噪声较小。经室内环境实验,利用短时能量和短时过零率的端点检测方法即可满足系统的要求,且这种检测方法计算简单,有利于系统的实时实现。根据语音处理的需要,本文在原有算法的基础上进行改进,提取出语音的起始端、浊音段起始端以及语音的结束端三个端点,为此后的声调识别和共性识别作准备。最后,还简要介绍了存在背景噪声情况下的语音去噪方法,以提高聋儿语言康复训练系统的适用性。声调识别是聋儿语言康复训练系统的一个重要内容。由于说话的速度受情绪、形式和环境的影响,使得即使发同一个音,提取的声调轨迹也不尽相同,这种声调长度的不确定性以及个性的差异,使得声调识别变得困难。本文从汉语声调的变化规律出发,提出了基于一次曲线拟合的汉语单音节声调识别方法。该方法通过对声调轨迹进行一次曲线拟合,提取了声调轨迹方差、拟合直线斜率、拟合优度以及拟合后的残差平方和四个参数,通过对各个参数设置不同的阈值,来识别四声调。为了进一步提高识别率,还结合基于能量的预分类方法,来提高了三声声调的识别率。通过实验,这种声调识别方法,在不需要进行训练的情况下,最终达到了97.84%的正确声调识别率。语音的共性识别关系到聋儿对语意信息的理解,也是聋儿语言康复训练系统不可缺少的一个重要内容。本文从汉语音节的特点出发,提出了将音节的清音段和浊音段分别对比的语音共性识别方法。利用FFT系数对清音段识别的方法,能够让聋儿清楚的理解清音的发音方式,达到更好的语言训练效果;通过对LPCC参数、MFCC参数和共振峰参数的分析和对比,浊音段的共性识别采用了与发音器官联系密切的共振峰参数,并与短时能量相结合,可以从参数的变化对聋儿的发音给出提示信息。总之,本文从汉语语音特点出发,采用适合聋儿语音康复训练的算法,并达到了满意的识别效果。

论文目录

中文摘要

ABSTRACT

第一章绪论

1.1 聋儿康复训练系统的国内外研究现状

1.2 聋儿康复训练系统的主要任务及要求

1.3 主要研究工作及论文内容安排

第二章语音的发声机理及汉语语音的特点

2.1 语音的发声机理

2.2 语音听觉机理及特点

2.2.1 人耳的构造

2.2.2 听觉感受性

2.2.3 掩蔽效应

2.3 汉语语音的特点

2.3.1.声母和韵母

2.3.2.音调

2.3.3.音长特性

2.3.4.频谱特性

2.4 本章小结

第三章预处理

3.1 预加重

3.2 端点检测

3.2.1 基于短时能量,短时过零率的时域端点检测方法

3.2.2 基于信息熵的端点检测方法

3.2.3 基于频带方差的端点检测

3.2.4.基于线性预测系数的端点检测方法

3.2.5.基于小波方差的端点检测方法

3.2.6 以上各种方法的对比

3.2.7 一种新的适用于聋儿康复系统的端点检测方法

3.3 语音增强

3.3.1 基于EVRC编码的噪声抑制

3.3.2 小波变换去噪方法

3.4 本章小结

第四章声调识别

4.1 基音特征提取

4.1.1 短时平均幅度差函数方法

4.1.2 自相关法

4.1.3 线性预测分析方法

4.1.4 小波方法

4.1.5 各种基音周期检测方法的对比

4.2 基音轨迹平滑方法

4.3 声调识别

4.3.1 基于能量预分类的统计处理方法

4.3.2 有说话人归一化方法的五点法

4.3.3 一种新的基于汉语声调特点的声调识别方法

4.4 本章小结

第五章语音共性识别

5.1 共性特征的提取及选择

5.1.1 LPCC参数及其提取

5.1.2 MFCC参数及其提取

5.1.3 共振峰参数及其提取

5.1.4 以上各参数的对比及选取

5.2 特征匹配——动态时间规整（DTW）

5.2.1.DTW算法原理

5.2.2.DTW算法实现

5.3 基于汉语音节特点的新共性特征对比方法

5.3.1.清音段的识别

5.3.2.浊音段的识别

5.4 本章小结

第六章结论与展望

参考文献

致谢

攻读硕士学位期间发表的论文

学位论文评阅及答辩情况表

基于计算机智能聋儿语音康复训练系统的语音识别研究

论文摘要

论文目录

相关论文文献

猜你喜欢