基于区分性原理的汉语语音识别中声调问题的研究

论文摘要

汉语是一种带调语言,声调在汉语语音中具有非常重要的意义。相同的声母和韵母构成的音节随声调的不同而具有完全不同的意义,对应着不同的方块字。特别是当语言模型上下文缺失的情况下,声调在汉语普通话中承担着重要的构字辨义的作用。因此,将声调信息应用于汉语普通话的语音识别系统当中,将会有效地提高识别系统的性能。近年来,基于区分性原理的机器学习方法已成为模式识别特别是自动语音识别研究领域的热门研究方向之一。利用区分性原理在模型训练以及特征优化方面提出的一些方法,在小规模的分类任务以及大词汇连续语音识别系统中都显示了优越的性能。本文以汉语普通话大词汇连续语音识别系统为应用背景,旨在根据汉语声调发音的特点,从区分性原理的角度来讨论汉语语音的声调建模以及声学建模中的声调信息利用问题。回顾了语音识别技术的发展历史,介绍了声调在汉语语音识别中的作用,系统性描述了区分性训练准则以及应用比较成功的区分性模型与方法,并由此提出了不同模型下改进声调识别性能以及利用声调信息改进声学建模性能的区分性方法,为汉语语音识别中声调问题的解决提供了新的研究思路。这些方法可概括如下:首先从区分性训练的角度研究了基于隐马尔可夫模型的声调建模方法。为了提高汉语声调识别率,从模型空间中利用区分性训练的参数更新方法对模型参数进行重估。在汉语普通话中,由于协同发音的存在,连续语音的声调识别较孤立语音声调识别复杂。声调协同发音体现为对当前音节的声调感知高度依赖于上下文声调。基于上述原理,在特征空间的区分性训练方面,提出区分性声调特征提取方法。该方法根据区分性线性特征补偿的思想,根据区分性目标函数训练得到的线性变换,将上下文基音频率进行映射并补偿至当前音节基音频率特征。实验表明区分性声调特征提取显著提高了声调识别率,声调特征提取基础上的模型参数联合训练进一步提高了声调识别的性能。并从识别率以及特征变换参数的角度进行分析,说明特征提取方法与传统声调特征归一化的本质不同。条件随机场（conditional random fields,CRFs）是近年来在自然语言处理领域使用的成功的数学模型。论文采用条件随机场的一种扩展-隐条件随机场对汉语语音声调进行显式建模,提出一种对传统动态特征的扩展-广义动态特征来更好地捕捉基音频率曲线的动态变化。声调识别实验表明采用相同的特征和结构,隐条件随机场较最大似然训练的隐马尔可夫模型声调识别率有显著提高,加入广义动态特征之后声调识别率有一致性改进。隐条件随机场区别于HMM的重要特性在于无须对特征采用统一的利用方式,这使得该模型非常适合于处理汉语语音中基音频率在浊音段连续、清音段不连续的声学现象。提出了隐条件随机场对断续F0进行直接建模的隐式声调建模方法,带调音节分类实验表明在隐条件随机场下对断续基音频率序列的直接建模较使用清音段平滑F0特征的识别率有明显的提高,该实验结果对利用隐条件随机场在大词汇连续语音识别系统下,声学建模中对断续基音频率序列的直接建模提供初步的实验依据。讨论了大间隔（large margin）高斯混合模型的声调建模方法,根据大间隔区分性训练准则对模型参数进行区分性训练。对于参数的更新,针对基于Quasi-Newton梯度下降方法收敛速度慢的缺点,提出一种扩展Baum Welch（extended Baum Welch,EBW）形式的大间隔高斯混合模型的参数更新方法,该方法借助弱辅助函数的原理对高斯参数进行优化,实验表明该方法与基于Quasi-Newton的梯度方法相比只需要几次迭代就可以达到相同甚至更高的识别结果。另一方面,对于基于段特征的高斯混合模型,选取什么样的特征能够达到更好的识别率往往需要反复试凑得到最优的识别结果。本文利用线性判别分析方法来对声调特征进行降维,通过线性判别分析得到更加适合于声调区分的段特征,声调识别实验上表明在维数缩减特征基础上的高斯混合声调模型,较传统的重叠双音调高斯混合模型在声调识别性能方面有明显的提高,这表明线性判别分析获得的特征要优于人工选取的超音段声调特征。最后讨论了一种区分性模型权重的训练方法,将显式训练的声调模型加入大词汇量连续语音识别系统中来提高汉语连续语音识别率。该方法根据最小音子错误（minimumphone error,MPE）准则,区分性地训练模型相关的概率权重。利用这些权重对传统基于传统谱特征的HMM模型概率以及声调模型概率进行加权,通过调整模型之间的作用程度提高系统识别率。推导了利用扩展Baum-Welch算法的权重更新公式。根据汉语上下文相关声学建模的特点,由此提出了带调音节相关、韵母模型相关、模型组合相关和整词相关的模型权重策略。对不同模型权重组合策略进行了评估。在实验中,由于训练语料的有限性,各种权重策略随着可训练参数增多,容易受到过训练的影响。具体表现在:对训练数据目标函数增大,但是测试数据识别率反而下降。提出利用权重之间的平滑的方法来克服权重训练过拟合的问题。分别通过大词汇连续语音的带调音节输出和汉字输出两种识别任务来验证区分性模型权重训练的性能。实验结果表明在两种识别任务上,使用区分性的模型权重较使用全局模型权重显著地降低了误识率,这表明了区分性模型权重对提高声调模型集成性能的有效性。

论文目录

摘要

Abstract（英文摘要）

英文缩略语列表

第一章绪论

1.1 语音识别简介

1.1.1 语音识别问题

1.1.2 语音识别系统

1.1.2.1 前端处理

1.1.2.2 识别器

1.1.2.3 后处理

1.1.3 语音识别发展历史

1.2 汉语语音识别

1.2.1 汉语语音识别的特点

1.2.2 声调识别

1.2.3 声调特征

1.2.3.1 基音频率提取方法

1.2.3.2 基音频率的归一化

1.2.4 连续语音识别中的声调信息的利用方法

1.2.4.1 隐式声调建模

1.2.4.2 显式声调建模

1.2.4.3 隐式/显式混合方法

1.3 本文的主要研究工作和贡献

1.3.1 立论依据

1.3.2 主要研究工作和创新点

1.4 论文的结构安排

第二章区分性学习方法

2.1 区分性训练准则

2.1.1 贝叶斯分类器

2.1.2 最大似然估计

2.1.3 条件最大似然与最大互信息

2.1.4 最小分类错误

2.1.5 最小音子错误

2.2 条件随机场

2.3 大间隔模型

2.3.1 支持向量机

2.3.2 大间隔高斯混合模型

2.3.3 大间隔隐马尔可夫模型

2.4 其他区分性方法

2.4.1 区分性特征提取

2.4.2 区分性的语言模型训练

2.4.3 区分性说话人自适应方法

2.4.4 区分性精度矩阵训练

2.5 本章小结

第三章基于区分性训练隐马尔可夫模型的声调建模

3.1 基于HMM的声调模型

3.2 HMM参数估计方法

3.2.1 区分性目标函数定义

3.2.2 区分性目标函数分析

3.2.3 模型参数更新方法

3.2.3.1 最大似然估计的更新

3.2.3.2 区分性HMM参数更新方法

3.3 基于HMM声调模型的区分性声调特征提取

3.3.1 线性变换特征补偿

3.3.2 特征变换矩阵的优化

3.3.2.1 直接导数的计算

3.3.2.2 间接导数计算

3.3.2.3 算法实现的正确性校验

3.4 实验与结果

3.4.1 数据库与实验配置

3.4.2 声调实验及结果

3.4.2.1 最大似然训练结果

3.4.2.2 区分性模型训练结果

3.4.2.3 完全匹配正确测度实验结果

3.4.2.4 与条件最大似然训练的比较

3.4.2.5 区分性声调特征提取结果

3.4.3 前后端联合训练

3.5 本章小结

第四章基于隐条件随机场的显式与隐式声调建模

4.1 序列标注问题的几种建模方法

4.1.1 隐马尔可夫模型

4.1.2 最大熵马尔可夫模型

4.1.3 条件随机场

4.2 隐条件随机场

4.2.1 模型定义

4.2.2 参数估计方法

4.3 基于隐条件随机场汉语语音声调/声学建模

4.3.1 基本特征

4.3.2 广义动态特征

4.3.3 隐式声调建模离散特征的设置

4.4 实验与分析

4.4.1 声调识别实验

4.4.2 带调音节分类实验

4.4.2.1 模型单元的选取

4.4.2.2 结果与分析

4.5 本章小结

第五章大间隔模型与方法

5.1 大间隔高斯混合模型

5.1.1 最大似然估计

5.1.2 大间隔目标函数

5.1.3 多混合高斯下的间隔条件

5.1.4 参数优化方法

5.1.4.1 半定规划

5.1.4.2 梯度下降法

5.2 一种快速参数更新算法

5.2.1 目标函数的改进

5.2.2 弱意义辅助函数的构造

ij的选取'>5.2.3 平滑常数D_ij的选取

5.3 基于线性判别分析的声调特征降维

5.4 实验以及结果

5.4.1 最大似然估计的高斯混合声调模型

0特征'>5.4.1.1 基本F₀特征

5.4.1.2 对数能量特征

5.4.1.3 段动态特征

5.4.1.4 重叠双音调高斯

5.4.2 最小声调错误声调模型结果

5.4.3 大间隔模型训练结果

5.4.4 线性判别分析结果

5.5 几种声调模型的性能比较以及分析

5.6 本章小结

第六章二次解码中的区分性权重训练

6.1 连续语音识别中的声调模型集成框架

6.1.1 声调模型集成

6.1.2 汉语大词汇量连续语音识别单元

6.1.2.1 汉语语音基本音子集

6.1.2.2 上下文相关三音子模型

6.1.3 模型权重策略

6.2 区分性模型权重训练

6.2.1 最小音子错误（Minimum Phone Error）目标函数

6.2.2 基于扩展Baum Welch算法的权重优化

6.2.2.1 扩展Baum Welch（Extended Baum Welch,EBW）算法

6.2.2.2 权重更新公式

6.2.3 MPE谱特征模型更新公式

6.3 实验结果及分析

6.3.1 数据库及实验配置

6.3.2 带调音节识别实验结果

6.3.3 汉字输出识别实验结果

6.3.4 与隐式声调建模方法的比较

6.4 本章小结

第七章结论

7.1 本文工作总结

7.2 下一步工作的展望

参考文献

致谢

攻读博士学位期间的研究成果

基于区分性原理的汉语语音识别中声调问题的研究

论文摘要

论文目录

相关论文文献

猜你喜欢