基于统计模型与发音错误检测的语音合成方法研究

论文摘要

近十年来,随着参数分析合成器性能的不断提升以及统计建模方法的日益成熟,基于统计模型的统计建模方法以及基于统计模型的拼接语音合成方法逐渐发展起来。其中,基于隐马尔科夫模型(HMM)的参数合成系统以及基于HMM模型的拼接语音合成方法被越来越多的研究人员关注起来。相比传统的单元挑选拼接语音合成方法,基于HMM的参数合成方法具有构建速度快,可懂度、流畅度高,需要的存贮空间小,音色等调整灵活等特点。基于HMM模型的拼接语音合成方法最近成为研究的热点,与传统的单元挑选和拼接合成语音方法相比,基于HMM模型的拼接语音合成语音方法利用统计模型的似然值或者后验概率作为指导模型挑选的依据,提高了单元挑选的准确性,减少了拼接语音合成中不连续的现象。但是HMM参数合成系统也有自身的缺点。由于采用最大似然准则或者最小生成误差等准则由统计模型生成声学参数,再由语音声学参数通过语音合成器合成语音,其合成语音的自然度与拼接合成系统的合成语音相比有一定的差距,不如自然语音清晰。这主要由三方面的原因造成:(1)语音分析/合成器的音质损失;(2)HMM统计建模的精确度不够;(3)统计模型的过于平均化。此外,由于如今对合成语音音质和自然度的评价标准主要是基于主观的MOS(Mean Opinion Score)得分,但是现今的基于统计模型的参数合成方法和基于代价的拼接合成方法都没有直接将人的主观听感判断作为语音合成系统构建的依据,加入到语音系统的构建过程中。本文针对现有HMM参数合成系统建模精确度不够的问题,提出了对HMM参数合成系统音素时长模型进行满方差建模的方法。并且对频谱声学模型的聚类过程提出了基于最小交叉生成误差的优化方法。针对现有的语音合成方法没有直接引入人的主观听感作为准则的问题,利用机器辅助语言学习中发音错误检测的方法,提出了基于发音错误检测的语音合成方法,将人主观判断引入语音合成的方法中。整个文章安排如下:第一章是绪论,对现今的基于HMM统计模型的参数语音合成方法作了介绍。包括基本原理,框架,优点以及不足。并且介绍了HMM参数合成方法最近的改进。第二章介绍了对语音合成中的音素时长进行满方差建模的方法。由于在传统的HMM语音合成方法中,对音素时长模型建模采用对角方差HMM模型,在模型训练以及时长参数生成时没有考虑音素时长HMM状态之间的联系。本文针对这项不足提出了用满方差HMM模型对语音音素的时长进行建模的方法,包括模型聚类以及参数生成的方法。实验证明,与对角方差HMM模型相比,时长满方差建模提高了合成语音时长的自然度。第三章针对传统参数合成方法中对频谱参数统计模型上下文聚类不精确的问题提出了基于最小交叉生成误差的决策树聚类优化方法。针对传统的基于MDL(最小描述距离)准则的统计模型上下文相关决策树聚类不够精确的问题,本文结合交叉验证以及最小生成误差准则,提出了最小交叉生成误差的准则,提出了分两步对决策树模型聚类的规模进行优化的方法。实验证明经过优化后的参数合成系统的合成语音在自然度和音质上有提升。在第四章中,由于现阶段的合成语音方法没有直接引入人的主观听感判断,本文首次通过结合发音错误检测的方法将人的主观听感引入到语音合成的方法中,提出了基于发音错误检测的语音合成方法。在本章中,我们首先介绍了传统机器辅助学习方法的基本原理,阐释了将人对合成语音的主观听感评判反馈到合成语音系统构建过程的必要性。并且结合机器辅助语言学习中发音错误检测的方法依次提出了合成语音音库标注自动错误检测方法,合成语音发音错误检测方法,以及基于发音错误检测的语音合成方法。穿插介绍了支持向量机(SVM)以及核Fisher区分性因子(KFD)分析的原理。主观和客观实验证明,合成语音音库标注自动错误检测方法能有效的减少合成语音音库中的标注错误。合成语音发音错误检测方法能在一定程度上检测合成语音中的发音错误。基于发音错误检测的语音合成方法的合成语音中的发音错误更少,与传统方法相比在整体自然度上有提升。第五章介绍了Blizzard Challenge语音合成比赛。Blizzard Challenge语音合成比赛是国际性的英文语音合成评测。科大讯飞实验室每年都会参加。本章详细介绍了Blizzard Challenge 2009年的比赛的各个评测子任务,系统搭建,以及我在各次比赛中所做的工作。最后介绍了实验室在09年Blizzard Challenge比赛中各项任务的评测结果。第六章是全文的总结,介绍了本文的创新点,以及今后的研究计划。

论文目录

摘要

Abstract

第1章绪论

1.1 前言

1.2 基于HMM 模型的参数语音合成方法

1.2.1 基于HMM 模型参数语音方法基本原理

1.2.2 基于HMM 模型的参数语音合成技术的优点

1.2.3 基于HMM 模型的参数语音合成技术的不足以及近期发展

1.3 本文研究的出发点

1.4 本章小结

第2章时长满方差建模方法

2.1 目标

2.2 传统时长建模方法

2.3 语音时长的满方差建模以及参数生成

2.3.1 时长满方差建模

2.3.2 满方差时长模型参数生成

2.3.3 主观测听实验

2.4 本章小结

第3章 HMM 决策树聚类的优化方法

3.1 决策树聚类优化的目的

3.2 基于交叉生成误差的决策树优化方法

3.2.1 交叉生成误差的定义

3.2.2 基于交叉生成误差的决策树规模整体优化

3.2.3 叶子节点基于最小交叉生成误差准则的回溯以及分裂

3.3 基于最小交叉生成误差的决策树优化实验

3.3.1 实验数据

3.3.2 决策树规模整体优化实验

3.3.3 决策树回溯以及分裂实验

3.4 本章小结

第4章基于发音错误检测的语音合成方法研究

4.1 背景介绍

4.2 传统的自然语音发音检错方法

4.2.1 后验概率检错算法

4.2.2 GOP 算法

4.2.3 发音错误检测方法

4.3 SVM 简介

4.3.1 从Maximum Margin Classifier 到SVM

4.3.2 核函数和高维空间问题

4.4 合成语音训练音库标注自动检错

4.4.1 背景介绍

4.4.2 上下文相关的发音检错系统框架

4.4.3 基于对数似然比（Log Likelihood Ratio, LLR）的检错

4.4.4 上下文相关竞争单元的引入

4.4.5 多音字检错实验

4.4.6 小结

4.5 基于支持向量机的合成语音发音错误检测方法

4.5.1 合成语音错误分类以及标注方法

4.5.2 系统框架

4.5.3 合成语音发音错误检测实验

4.5.4 小结

4.6 合成语音发音检错方法的改进

4.6.1 基于后验概率声学特征的SVM 分类器

4.6.2 基于KFD 分析的上下文相关聚类模型优化

4.6.2.1 基于核函数映射的Fisher 区分性分析

4.6.2.2 基于 KFD 调整自然/非自然声学模型规模实验

4.6.3 基于交叉验证的SVM 参数优化

4.7 基于合成语音发音错误检测的语音合成方法

4.7.1 系统框架

4.7.2 主观倾向性测听实验

4.8 本章小结

第5章 Blizzard Challenge 比赛

5.1 比赛背景

5.2 Blizzard Challenge 2009

5.2.1 Blizzard Challenge 2008 系统框架

5.2.2 EH1 任务

5.2.3 EH2 任务

5.2.4 ES1 任务

5.2.5 Blizzard Challenge 2009 比赛评测结果

5.3 本章小结

第6章总结

6.1 本文的主要贡献与创新点

6.2 后续的研究工作

参考文献

博士期间发表的论文和参与的研究工作

发表论文

所获奖项

研究经历

致谢

基于统计模型与发音错误检测的语音合成方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢