基于统计模型与发音错误检测的语音合成方法研究

基于统计模型与发音错误检测的语音合成方法研究

论文摘要

近十年来,随着参数分析合成器性能的不断提升以及统计建模方法的日益成熟,基于统计模型的统计建模方法以及基于统计模型的拼接语音合成方法逐渐发展起来。其中,基于隐马尔科夫模型(HMM)的参数合成系统以及基于HMM模型的拼接语音合成方法被越来越多的研究人员关注起来。相比传统的单元挑选拼接语音合成方法,基于HMM的参数合成方法具有构建速度快,可懂度、流畅度高,需要的存贮空间小,音色等调整灵活等特点。基于HMM模型的拼接语音合成方法最近成为研究的热点,与传统的单元挑选和拼接合成语音方法相比,基于HMM模型的拼接语音合成语音方法利用统计模型的似然值或者后验概率作为指导模型挑选的依据,提高了单元挑选的准确性,减少了拼接语音合成中不连续的现象。但是HMM参数合成系统也有自身的缺点。由于采用最大似然准则或者最小生成误差等准则由统计模型生成声学参数,再由语音声学参数通过语音合成器合成语音,其合成语音的自然度与拼接合成系统的合成语音相比有一定的差距,不如自然语音清晰。这主要由三方面的原因造成:(1)语音分析/合成器的音质损失;(2)HMM统计建模的精确度不够;(3)统计模型的过于平均化。此外,由于如今对合成语音音质和自然度的评价标准主要是基于主观的MOS(Mean Opinion Score)得分,但是现今的基于统计模型的参数合成方法和基于代价的拼接合成方法都没有直接将人的主观听感判断作为语音合成系统构建的依据,加入到语音系统的构建过程中。本文针对现有HMM参数合成系统建模精确度不够的问题,提出了对HMM参数合成系统音素时长模型进行满方差建模的方法。并且对频谱声学模型的聚类过程提出了基于最小交叉生成误差的优化方法。针对现有的语音合成方法没有直接引入人的主观听感作为准则的问题,利用机器辅助语言学习中发音错误检测的方法,提出了基于发音错误检测的语音合成方法,将人主观判断引入语音合成的方法中。整个文章安排如下:第一章是绪论,对现今的基于HMM统计模型的参数语音合成方法作了介绍。包括基本原理,框架,优点以及不足。并且介绍了HMM参数合成方法最近的改进。第二章介绍了对语音合成中的音素时长进行满方差建模的方法。由于在传统的HMM语音合成方法中,对音素时长模型建模采用对角方差HMM模型,在模型训练以及时长参数生成时没有考虑音素时长HMM状态之间的联系。本文针对这项不足提出了用满方差HMM模型对语音音素的时长进行建模的方法,包括模型聚类以及参数生成的方法。实验证明,与对角方差HMM模型相比,时长满方差建模提高了合成语音时长的自然度。第三章针对传统参数合成方法中对频谱参数统计模型上下文聚类不精确的问题提出了基于最小交叉生成误差的决策树聚类优化方法。针对传统的基于MDL(最小描述距离)准则的统计模型上下文相关决策树聚类不够精确的问题,本文结合交叉验证以及最小生成误差准则,提出了最小交叉生成误差的准则,提出了分两步对决策树模型聚类的规模进行优化的方法。实验证明经过优化后的参数合成系统的合成语音在自然度和音质上有提升。在第四章中,由于现阶段的合成语音方法没有直接引入人的主观听感判断,本文首次通过结合发音错误检测的方法将人的主观听感引入到语音合成的方法中,提出了基于发音错误检测的语音合成方法。在本章中,我们首先介绍了传统机器辅助学习方法的基本原理,阐释了将人对合成语音的主观听感评判反馈到合成语音系统构建过程的必要性。并且结合机器辅助语言学习中发音错误检测的方法依次提出了合成语音音库标注自动错误检测方法,合成语音发音错误检测方法,以及基于发音错误检测的语音合成方法。穿插介绍了支持向量机(SVM)以及核Fisher区分性因子(KFD)分析的原理。主观和客观实验证明,合成语音音库标注自动错误检测方法能有效的减少合成语音音库中的标注错误。合成语音发音错误检测方法能在一定程度上检测合成语音中的发音错误。基于发音错误检测的语音合成方法的合成语音中的发音错误更少,与传统方法相比在整体自然度上有提升。第五章介绍了Blizzard Challenge语音合成比赛。Blizzard Challenge语音合成比赛是国际性的英文语音合成评测。科大讯飞实验室每年都会参加。本章详细介绍了Blizzard Challenge 2009年的比赛的各个评测子任务,系统搭建,以及我在各次比赛中所做的工作。最后介绍了实验室在09年Blizzard Challenge比赛中各项任务的评测结果。第六章是全文的总结,介绍了本文的创新点,以及今后的研究计划。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 前言
  • 1.2 基于HMM 模型的参数语音合成方法
  • 1.2.1 基于HMM 模型参数语音方法基本原理
  • 1.2.2 基于HMM 模型的参数语音合成技术的优点
  • 1.2.3 基于HMM 模型的参数语音合成技术的不足以及近期发展
  • 1.3 本文研究的出发点
  • 1.4 本章小结
  • 第2章 时长满方差建模方法
  • 2.1 目标
  • 2.2 传统时长建模方法
  • 2.3 语音时长的满方差建模以及参数生成
  • 2.3.1 时长满方差建模
  • 2.3.2 满方差时长模型参数生成
  • 2.3.3 主观测听实验
  • 2.4 本章小结
  • 第3章 HMM 决策树聚类的优化方法
  • 3.1 决策树聚类优化的目的
  • 3.2 基于交叉生成误差的决策树优化方法
  • 3.2.1 交叉生成误差的定义
  • 3.2.2 基于交叉生成误差的决策树规模整体优化
  • 3.2.3 叶子节点基于最小交叉生成误差准则的回溯以及分裂
  • 3.3 基于最小交叉生成误差的决策树优化实验
  • 3.3.1 实验数据
  • 3.3.2 决策树规模整体优化实验
  • 3.3.3 决策树回溯以及分裂实验
  • 3.4 本章小结
  • 第4章 基于发音错误检测的语音合成方法研究
  • 4.1 背景介绍
  • 4.2 传统的自然语音发音检错方法
  • 4.2.1 后验概率检错算法
  • 4.2.2 GOP 算法
  • 4.2.3 发音错误检测方法
  • 4.3 SVM 简介
  • 4.3.1 从Maximum Margin Classifier 到SVM
  • 4.3.2 核函数和高维空间问题
  • 4.4 合成语音训练音库标注自动检错
  • 4.4.1 背景介绍
  • 4.4.2 上下文相关的发音检错系统框架
  • 4.4.3 基于对数似然比(Log Likelihood Ratio, LLR)的检错
  • 4.4.4 上下文相关竞争单元的引入
  • 4.4.5 多音字检错实验
  • 4.4.6 小结
  • 4.5 基于支持向量机的合成语音发音错误检测方法
  • 4.5.1 合成语音错误分类以及标注方法
  • 4.5.2 系统框架
  • 4.5.3 合成语音发音错误检测实验
  • 4.5.4 小结
  • 4.6 合成语音发音检错方法的改进
  • 4.6.1 基于后验概率声学特征的SVM 分类器
  • 4.6.2 基于KFD 分析的上下文相关聚类模型优化
  • 4.6.2.1 基于核函数映射的Fisher 区分性分析
  • 4.6.2.2 基于 KFD 调整自然/非自然声学模型规模实验
  • 4.6.3 基于交叉验证的SVM 参数优化
  • 4.7 基于合成语音发音错误检测的语音合成方法
  • 4.7.1 系统框架
  • 4.7.2 主观倾向性测听实验
  • 4.8 本章小结
  • 第5章 Blizzard Challenge 比赛
  • 5.1 比赛背景
  • 5.2 Blizzard Challenge 2009
  • 5.2.1 Blizzard Challenge 2008 系统框架
  • 5.2.2 EH1 任务
  • 5.2.3 EH2 任务
  • 5.2.4 ES1 任务
  • 5.2.5 Blizzard Challenge 2009 比赛评测结果
  • 5.3 本章小结
  • 第6章 总结
  • 6.1 本文的主要贡献与创新点
  • 6.2 后续的研究工作
  • 参考文献
  • 博士期间发表的论文和参与的研究工作
  • 发表论文
  • 所获奖项
  • 研究经历
  • 致谢
  • 相关论文文献

    • [1].基于音高映射合成语音的汉语双字调声调训练[J]. 清华大学学报(自然科学版) 2017(02)
    • [2].机械合成语音,能最终实现吗?[J]. 世界科学 2012(02)
    • [3].基于TMS320C6678的合成语音检测系统的设计与实现[J]. 电子设计工程 2016(19)
    • [4].一种基于LSTM的合成语音自然度评价方法的研究[J]. 信息技术 2019(05)
    • [5].动脑不动口 脑机来帮忙[J]. 北方人(悦读) 2019(11)
    • [6].后置滤波器参数自适应的语音合成改进算法[J]. 计算机工程与应用 2017(01)
    • [7].声音复刻站:Lyrebird[J]. 少年电脑世界 2018(10)
    • [8].基于统计建模的可训练单元挑选语音合成方法[J]. 科学通报 2009(08)
    • [9].AI合成语音背景下播音主持应以情感制胜[J]. 传媒论坛 2018(23)
    • [10].低码率语音编码中过渡帧对合成语音的影响[J]. 应用声学 2016(01)
    • [11].融合自动检错的单元挑选语音合成方法[J]. 数据采集与处理 2016(02)
    • [12].基于合成质量预测的单元挑选语音合成优化方法[J]. 清华大学学报(自然科学版) 2013(06)
    • [13].TETRA与G.729语音编码算法的比较研究[J]. 电视技术 2013(15)
    • [14].可训练语音合成在越南语合成中的应用[J]. 计算机工程与应用 2012(35)
    • [15].汉语连续变调语音合成算法[J]. 计算机工程与应用 2009(15)
    • [16].改进的混合激励线性预测编码算法[J]. 新型工业化 2015(09)
    • [17].可训练语音合成在侗语合成中的应用[J]. 教育文化论坛 2012(06)
    • [18].改进的MELP低速率语音编码器[J]. 计算机工程与应用 2011(29)
    • [19].“声音”作为未来传播主流介质的洞察范式——以用户对语音新闻感知效果与测量为例[J]. 社会科学战线 2019(07)
    • [20].基于规则的汉语情感语音系统的设计与实现[J]. 电子测量技术 2009(11)
    • [21].MELP低速率语音编码器在DSP上的改进与优化[J]. 计算机应用研究 2011(06)
    • [22].自适应谱增强在MBE语音编码中的应用研究[J]. 重庆工商大学学报(自然科学版) 2013(03)
    • [23].基于短信和语音合成的报警接口设计[J]. 微计算机信息 2010(11)
    • [24].一种改进的MELP算法[J]. 应用科技 2008(05)
    • [25].多带激励MBE谱幅度估计与参数编解码方案研究[J]. 电子设计工程 2011(16)
    • [26].面向汉语统计参数语音合成的标注生成方法[J]. 计算机工程与应用 2016(19)
    • [27].汉语重音的凸显度分析与合成[J]. 声学学报 2015(01)
    • [28].藏语拉萨话语音合成语料库的研究与建立[J]. 科技信息 2013(09)
    • [29].声纹识别中合成语音的鲁棒性[J]. 模式识别与人工智能 2011(06)
    • [30].基于HMM的混合激励英语文语转换系统[J]. 江南大学学报(自然科学版) 2010(06)

    标签:;  ;  ;  ;  ;  

    基于统计模型与发音错误检测的语音合成方法研究
    下载Doc文档

    猜你喜欢