基于统计声学建模的语音合成技术研究

基于统计声学建模的语音合成技术研究

论文摘要

近十几年来,随着针对语音信号的统计建模方法的日益成熟以及参数合成器性能的不断提升,统计参数语音合成(Statistical Parametric Speech Synthesis)思想被提出,并得到了越来越多研究者的关注。其中,以基于隐马尔可夫模型(Hidden Markov Model,HMM)的参数语音合成方法为代表,该方法已逐步发展成为和基于语料库的单元挑选与波形拼接合成方法相并列的一种主流语音合成方法。相比传统的单元挑选与波形拼接合成方法,基于HMM的参数语音合成方法具有合成语音流畅度高、鲁棒性好,系统构建速度快、自动化程度高,系统尺寸小、灵活度高等优点。本文以统计声学模型在语音合成中的应用为研究重点,在原有基于HMM的参数合成方法之外,提出了两种新的基于统计声学建模的语音合成方法。第一,基于HMM的单元挑选与波形拼接合成:我们将HMM参数语音合成中使用的声学参数建模思想,与传统的单元挑选与波形拼接合成方法相结合,使用概率准则指导最优单元搜索,通过拼接波形生成最终语音,以克服参数合成方法在生成语音音质上的不足,提高合成语音的自然度;第二,融合声学参数与发音器官参数(Articulatory Feature)的建模与合成:我们在声学参数之外,引入和语音产生机理更加紧密相关的发音器官参数,通过对原有的HMM模型结构进行改进,实现两种参数的联合建模与生成,从而提高合成时声学参数预测的精确度和灵活性。整篇文章的安排如下:第1章是绪论,将回顾语音合成的发展历史,并对常见的几种语音合成方法进行简要的介绍。第2章将具体介绍基于HMM的参数语音合成方法,包括HMM的基本原理、系统框架、关键技术点等,并通过对此方法特点的分析,阐明我们进行新的语音合成方法研究的动机与出发点。第3章将重点介绍基于HMM的单元挑选与波形拼接语音合成算法。首先我们提出了使用HMM进行单元挑选的两种不同的实现形式,一种以帧为拼接单元,基于最大似然准则实现单元搜索,另一种使用音素和帧的两级拼接单元,结合似然值准则和Kullback-Leibler距离(Kullback-Leibler Divergence,KLD)进行单元选择;然后,我们归纳出了基于HMM的单元挑选合成的统一算法框架,并通过在中文和英文合成系统上的测试证明了此算法的有效性;最后,我们提出了最小单元挑选错误(Minimum Unit Selection Error,MUSE)准则,用以替代原有HMM训练中使用的最大似然准则,实现了合成系统的全自动构建,并进一步提高了合成语音的自然度。第4章将介绍融合发音器官参数与声学参数的统计建模与合成。这里的“发音器官参数”指的是对发音过程中说话者舌、唇、下颚等发音器官的位置以及运动情况的定量描述。在阐明了引入发音器官参数的原因以及对原有系统框架进行了简单回顾后,我们提出了对声学参数和发音器官参数进行联合建模与参数生成的总体思路,并且从模型聚类策略、状态的同步性假设以及特征之间的独立性假设三个方面,讨论了几种可能的模型结构;然后,通过一系列的客观和主观评测,证明了这种结合发音器官参数的系统构建方法在提高声学参数预测的精确度和灵活性方面的有效性。第5章对全文进行了总结。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第1章 绪论
  • 1.1 语音合成研究背景
  • 1.1.1 概述
  • 1.1.2 语音合成历史回顾
  • 1.2 语音产生的生理机理
  • 1.3 常见语音合成方法
  • 1.3.1 物理机理语音合成
  • 1.3.2 源—滤波器语音合成
  • 1.3.2.1 源—滤波器合成基本原理
  • 1.3.2.2 线性预测分析合成器
  • 1.3.2.3 共振峰合成器
  • 1.3.3 基于波形拼接技术的语音合成
  • 1.3.4 基于隐马尔可夫模型的参数语音合成
  • 1.4 本论文的研究目标和内容概述
  • 第2章 基于HMM的参数语音合成方法
  • 2.1 HMM简介
  • 2.1.1 马尔可夫链
  • 2.1.2 隐马尔可夫模型(HMM)
  • 2.1.3 HMM用于语音建模
  • 2.2 基于HMM的参数语音合成框架
  • 2.2.1 模型训练阶段
  • 2.2.2 语音合成阶段
  • 2.3 关键技术
  • 2.3.1 STRAIGHT分析合成算法
  • 2.3.2 基于决策树的模型聚类
  • 2.3.3 基于MSD-HMM的基频建模
  • 2.3.4 结合动态特征的参数生成算法
  • 2.4 基于HMM的参数语音合成方法的特点
  • 2.4.1 优势
  • 2.4.2 不足
  • 2.4.3 本文研究的出发点
  • 2.5 本章小结
  • 第3章 基于HMM的单元挑选合成方法
  • 3.1 基于帧尺度单元和最大似然准则的单元挑选算法
  • 3.1.1 算法提出
  • 3.1.2 算法流程
  • 3.1.3 基于最大似然准则的帧单元挑选算法
  • 3.1.3.1 最大似然准则用于帧单元挑选
  • 3.1.3.2 两级的动态规划算法
  • 3.1.3.3 波形拼接
  • 3.1.4 运算复杂度优化
  • 3.1.4.1 基于决策树的单元预选
  • 3.1.4.2 基于代价的单元预选
  • 3.1.4.3 搜索时的剪枝处理
  • 3.1.5 实验
  • 3.1.5.1 实验条件
  • 3.1.5.2 评测结果
  • 3.1.5.3 复杂度评估
  • 3.1.6 小结
  • 3.2 使用分级尺度单元并结合KLD准则的单元挑选算法
  • 3.2.1 算法提出
  • 3.2.2 算法实现
  • 3.2.2.1 模型训练
  • 3.2.2.2 音素级的单元挑选
  • 3.2.2.2.1 结合似然值和KLD的音素单元挑选
  • 3.2.2.2.2 HMM间KLD的计算
  • 3.2.2.2.3 实现过程
  • 3.2.2.3 帧级的单元挑选
  • 3.2.3 实验
  • 3.2.3.1 实验条件
  • 3.2.3.2 复杂度评估
  • 3.2.3.3 自然度主观测试
  • 3.2.4 小结
  • 3.3 基于HMM的单元挑选合成系统
  • 3.3.1 基于HMM的单元挑选合成算法框架
  • 3.3.2 满足实时性要求的系统实现
  • 3.3.3 对比传统拼接合成方法的评测
  • 3.3.3.1 系统构建
  • 3.3.3.2 系统测听
  • 3.3.4 Blizzard Challenge 2007国际合成语音评测
  • 3.3.4.1 背景介绍
  • 3.3.4.2 系统构建
  • 3.3.4.3 评测结果
  • 3.3.4.3.1 相似度测试
  • 3.3.4.3.2 自然度测试
  • 3.3.4.3.3 可懂度测试
  • 3.3.4.4 对比汇总
  • 3.3.5 小结
  • 3.4 基于单元挑选错误率最低(MUSE)准则的模型训练
  • 3.4.1 算法提出
  • 3.4.2 算法实现
  • 3.4.2.1 基于MUSE准则的区分性训练方法
  • 3.4.2.2 基于GPD算法的参数更新
  • 3.4.3 实验
  • 3.4.4 小结
  • 3.5 本章小结
  • 第4章 结合发音器官参数的建模合成
  • 4.1 问题提出
  • 4.2 方法
  • 4.2.1 基于HMM的参数合成方法
  • 4.2.2 融合发音器官参数的建模生成方法
  • 4.2.3 聚类共享系统
  • 4.2.4 状态同步系统
  • 4.2.5 特征相关系统
  • 4.3 实验
  • 4.3.1 数据库
  • 4.3.2 系统构建
  • 4.3.3 声学参数生成的准确度评测
  • 4.3.4 声学到发音器官参数的反向映射
  • 4.3.5 声学参数生成的灵活性评测
  • 4.4 本章小结
  • 第5章 总结
  • 一. 本文的主要贡献与创新点
  • 二. 后续的研究工作
  • 参考文献
  • 在读期间发表的学术论文与取得的研究成果
  • 一. 项目经历
  • 二. 发表论文
  • 三. 专利申请
  • 致谢
  • 相关论文文献

    • [1].发音器官与语言发生[J]. 现代语文(学术综合版) 2012(04)
    • [2].苍天为证:真的只是口误[J]. 故事家 2017(15)
    • [3].“歌唱勇士”——蝉[J]. 北极光 2017(08)
    • [4].浅谈声乐语言的发音[J]. 才智 2008(20)
    • [5].在音乐教学中怎样培养学生的“音乐嗓子”[J]. 中国农村教育 2019(15)
    • [6].蜜蜂的发音器官之谜[J]. 小学科学 2010(03)
    • [7].倾听细胞的喧闹[J]. 大科技(科学之谜) 2013(03)
    • [8].基于深度神经网络的语音驱动发音器官的运动合成[J]. 自动化学报 2016(06)
    • [9].汉语“发音器官”的概念转喻研究[J]. 高考(综合版) 2013(07)
    • [10].如何快速提高阅读速度[J]. 中学英语之友(高一版) 2009(10)
    • [11].论脑文本与语言生成[J]. 华中师范大学学报(人文社会科学版) 2019(06)
    • [12].超声波成像技术在生理语音学中的应用[J]. 南开语言学刊 2013(01)
    • [13].“发音器官”的概念隐喻在汉语词汇教学中的应用[J]. 佳木斯教育学院学报 2014(04)
    • [14].2种墨天牛摩擦发音器超微结构的比较研究[J]. 安徽农业科学 2014(18)
    • [15].卷首[J]. 中国音乐教育 2010(02)
    • [16].蟋蟀的“通讯工具”[J]. 第二课堂(小学) 2010(Z2)
    • [17].孩子口吃怎么办[J]. 新农村 2019(12)
    • [18].蟋蟀巧用“BP”机[J]. 科学之友(上旬) 2010(05)
    • [19].走近不爱说话的孩子[J]. 小学生作文辅导(教师适用) 2011(07)
    • [20].蝈蝈——关在笼子里的大自然[J]. 中华活页文选(八年级) 2011(03)
    • [21].浅谈默读教学[J]. 学苑教育 2012(12)
    • [22].三招消除心因性口吃[J]. 家庭科技 2011(10)
    • [23].民谣在文艺作品中的运用[J]. 躬耕 2014(06)
    • [24].儿童口吃与心理有关[J]. 开卷有益(求医问药) 2012(06)
    • [25].如何提高阅读速度[J]. 少年读者 2008(05)
    • [26].3种天牛科昆虫摩擦发音器的超微结构及摩擦发音机制分析[J]. 南京林业大学学报(自然科学版) 2013(01)
    • [27].基于语音信号的发音器官运动估计方法综述[J]. 中国传媒大学学报(自然科学版) 2018(01)
    • [28].小议默读[J]. 成功(教育) 2010(10)
    • [29].蟋蟀用“BP机”寻爱[J]. 科学24小时 2008(03)
    • [30].帮特殊儿童走出困境[J]. 课程教育研究 2015(30)

    标签:;  ;  ;  ;  ;  

    基于统计声学建模的语音合成技术研究
    下载Doc文档

    猜你喜欢