论文摘要
关键词检出是语音识别中一个重要的研究领域,它是在连续语音流中识别出一组给定词的过程,具有识别率高、实用性强、时间耗费少等优点。本文的主要研究内容是连续语音中关键词的快速检出,要求在保持良好识别性能的前提下,尽可能地降低系统的识别时间,以便于实时环境下的应用。本文详细讨论关键词检出系统中使用的Viterbi搜索算法的原理和特点,然后实现一个基于连续隐马尔科夫模型的关键词检出基线系统,对其中各个模块进行简要介绍。所实现的系统基于离线垃圾模型,并使用令牌传递(Token Passing)算法进行在线识别。针对基线系统实时性不高的问题,本文在多个方面对其进行了实时性方面的改进。首先,考虑到语音信号的复杂性,一般采用高斯混合模型对观察概率进行建模。基于隐马尔科夫模型的关键词检出系统中,计算观察概率通常占据全部识别时间的很大一部分。因此,提高观察概率的计算效率对改进系统实时性有很大意义。本文在最近邻快速估算算法的基础上,提出一种称作相邻帧特征相似性的方法。它依据相邻帧之间的高相似性,根据产生前一帧特征矢量的若干个最大的混合分量,有效预测当前帧所使用的最大高斯混合分量。与基线系统相比,这种方法能够降低29.3%的识别时间,而系统性能仅有略微的下降。其次,本文分析Viterbi Beam搜索算法的缺陷发现,基本的Viterbi Beam搜索使用固定的裁剪门限,出于检出率方面的考虑,只能设置保守的门限宽度,不能根据解码过程中各阶段的特点和语音帧的声学特点来动态的改变门限,系统实时性不够高。本文引入自适应裁剪,提出一种基于分位数的裁剪策略。与基线系统相比,这种方法能够降低35%的识别时间,而系统识别性能维持不变。再次,解码过程中,通常省略观察矢量序列的先验概率。这种方法只是从所有词序列中识别出相对最匹配的词串,但是其置信度不一定足够高。本文提出一种称作置信度累加的剪枝方法,在通常基于似然分裁剪的基础上,添加一层基于置信度的裁剪,有效地控制搜索过程使其向着置信度高的方向扩展。与基线系统相比,这种方法能够降低5.7%的识别时间,同时生成的词网格中候选词的规模减少30%,因此,能够大幅降低关键词确认阶段的计算量,尤其适用于确认算法复杂的应用。在此基础上,本文交叉组合以上各种方法,在基本保持识别性能的前提下,大幅降低系统的识别时间,取得较好的效果。最后总结本文的研究成果,并对以后关键词检出的研究方向进行了讨论。