基于语音结构化模型的连续数字语音识别

论文摘要

汉语连续数字语音识别在现实中具有非常广泛的应用前景,在电话与电信系统的自动语音拨号、身份证号码证实、智能家电中用于电视频道和空调温度的遥控等多方面都有着重要的应用价值。汉语连续数字语音识别是语音识别中的一个重要分支,其主要难点在于,首先不确定数字串的长度,很难准确判别连续数字串中的字间边界;其次连续数字串中的数字是任意组合的,没有可以借鉴的语法知识;再有汉语数字自身的发音特点导致识别困难,如:数字语音间的混淆程度高,汉语连续数字串中各个数字的协同发音现象较严重等。此外,语音通信中不可避免地会受到说话人差异、线路干扰、环境噪声等的影响,引起信号失真,导致识别系统的鲁棒性相当脆弱。本课题研究主要包括两个方面:(1)采用全局声学结构描述的连续数字语音识别。依据描述语音内在关系的、对传输和处理过程中的线路噪声和说话人变化具有鲁棒性的全局声学结构AUS,提出适合于连续数字语音识别的双层结构化语音模型匹配策略,在没有可以借鉴的语法知识情况下,不需要大量的训练模板,只要使用较少的单个数字语音训练数据就可以实现任意长度的连续数字语音识别,且不需要充分的训练语料和通用的信道归一化技术,解决目前语音识别和连续数字语音识别中存在的说话人差异性等的鲁棒性问题。(2)采用直方图均衡的语音识别鲁棒性研究。在语音识别中,加性噪声也是导致系统性能下降的重要原因。直方图均衡化方法是一种非线性补偿变换技术,较传统的基于线性变换技术的抗噪声方法进一步提高了系统的鲁棒性。但实际识别系统中,除了噪声引起语音特征的非线性失真外,还存在训练和测试数据的语音特征类分布不一致问题,从而难以保证传统的直方图均衡化方法发挥其优势。本文提出一种基于特征分类的直方图均衡化方法,实验结果表明,低信噪比时无论在平稳噪声还是非平稳噪声环境下,与传统的直方图均衡化方法相比都进一步增强了识别系统的鲁棒性。

论文目录

摘要

Abstract

第一章引言

1.1 语音识别概述

1.2 连续数字语音识别

1.2.1 连续数字语音识别意义及难点

1.2.2 连续数字语音识别研究现状

1.3 本课题的主要研究内容

第二章语音识别基本理论

2.1 语音识别的基本原理

2.2 语音信号预处理

2.3 特征提取

2.4 隐马尔可夫模型（HMM）

2.4.1 语音的HMM 描述

2.4.2 基于HMM 的语音识别算法

第三章基于语音结构化模型的连续数字语音识别

3.1 全局声学结构的描述

3.2 语音失真因素

3.3 全局声学结构的不变性

3.4 基于AUS 的连续数字语音识别

3.5 实验与分析

3.5.1 孤立数字语音识别

3.5.2 连续数字语音识别

3.6 小结

第四章鲁棒性语音识别的HEQ 方法及其改进

4.1 鲁棒性语音识别

4.2 直方图均衡化原理

4.3 直方图均衡化去噪方法

4.3.1 基于自适应分段统计的直方图均衡化方法

4.3.2 基于统计顺序的直方图均衡化方法

4.3.3 其它均衡化方法

4.3.4 传统的直方图均衡化存在的问题

4.4 采用特征分类的直方图均衡化

4.5 噪声环境下实验与分析

4.5.1 实验环境与条件

4.5.2 实验与分析

4.6 小结

第五章总结与展望

参考文献

攻读学位期间发表的学术论文

致谢

基于语音结构化模型的连续数字语音识别

论文摘要

论文目录

相关论文文献

猜你喜欢