论文摘要
语音识别在人机交互、通信、互联网和工业化控制等方面有着重要应用前景。声调是汉语音节的重要组成部分,具有构词辨意作用。汉语语音识别技术目前的研究热点和难点是非特定人的连续语音。随着语音识别技术的发展,声调识别研究成为其突破的方向之一。本文首先对声调提取算法进行研究。采用基于多参数组合方法(短时能量、短时过零率、自相关函数值)进行语音信号清浊音判别,利用循环平均幅度差函数进行基音周期计算。对所得声调曲线进行7维特征参数提取,利用隐马尔可夫模型建立汉语连续声调识别系统。系统正确识别率在训练集和测试集中分别为74.31%和71.37%,但声调三的识别率比较低。针对声调三识别率低的特点,本文对声调三音节的上下文语境进行实验研究。实验发现,当声调三音节为句尾或词尾时,其正确识别率为80%左右。考虑到音节的上下文语境和声调的特点,在声调识别系统中加入变调规则,搭建基于语境的声调识别系统。其识别率在训练集和测试集分别提高24.5%和21.1%,特别是声调三有显著提高。实验表明,基于上下文语境的声调识别系统的性能得到提升。本文最后对汉语连续数字串识别系统进行研究,实验发现存在容易误判的数字对,7(qi1)容易误判成4(si4),数字6(liu4)容易误判成9(jiu3)。考虑到声调具有辩意作用,在识别系统中加入声调识别模块,搭建基于声调信息的连续数字串识别系统。实验表明,改进后系统在训练集和测试集正确识别率为88.62%和83.36%,误判数字得到明显纠正,在连续数字串识别技术中加入声调信息能提高系统性能。