个性化语音生成研究

个性化语音生成研究

论文摘要

个性化语音生成是指生成具有特定说话人特征的语音。个性化语音生成的应用非常广泛,比如可以改变语音合成系统的语音以提供个性化的合成语音,或在语音聊天、在线游戏中隐藏说话人的真实身份,也可以在多媒体彩信中模仿他人以达到娱乐的效果等。目前最常用的个性化语音生成方法有两种:一是说话人转换方法二是语音合成模型自适应方法。两种方法有着各自的优缺点,适用于不同的应用场合。本文对这两种方法的特点和联系进行探讨,针对不同方法存在的问题和应用的实际需求进行改进,并通过系统评测验证了改进的效果。论文包括五部分内容:在第一部分,论文将对个性化特征、个性化语音生成的实际需求以及不同个性化语音生成方法的特点和使用场景进行总结分析。首先对人的发音过程的声学机理和数学模型进行了简要介绍,在此基础上总结了不同的说话人特征参数。然后对个性化语音生成的实际需求进行分析,并对个性化语音生成方法的优缺点和适用场景进行讨论。在第二部分,论文则是对最常用的两类说话人转换方法:基于GMM的方法和基于码本映射的方法,进行一个系统的分析。论文首先介绍GMM方法以及几种最重要的分支。接下去,对Abe的经典码本映射方法以及Alsan提出的STASC码本映射方法进行介绍。之后,论文将对这两种方法进行一个系统的分析比较,指出各自的优点和不足。最后,将讨论在实践中发现的GMM方法和码本映射方法存在的两个共同的问题:1.源和目标说话人对应数据的不匹配问题;2.转换频谱的过平滑问题。这些分析和讨论将指引本文探索新的说话人转换方法。论文在第三部分,针对现有说话人转换方法存在的问题,提出了一种基于频谱弯曲的说话人转换方法,其中频谱弯曲函数是基于源说话人和目标说话人的映射共振峰参数生成。这种方法有两个优点:一是所需训练数据非常少。二是转换语音具有较高的音质。为了进一步提高与目标说话人的相似度,论文提出了一种结合频谱弯曲和单元挑选的说话人转换方法以提高频谱细节上的相似度。该方法首先进行频谱弯曲,然后将弯曲后的频谱作为目标进行单元挑选。接下去将部分弯曲后的频谱用挑选到的目标说话人的真实频谱进行替换,最后重构出转换后的语音。评测结果表明,基于本文的频谱弯曲方法获得的转换语音音质远优于其他方法,并且在音质和相似度上取得较好的平衡。评测结果同时表明结合频谱弯曲和单元挑选可以比频谱弯曲获得显著的相似度提高。论文在第四部分,针对多语种语音合成系统遇到的实际问题,创新性地利用语音合成模型自适应和说话人转换方法相结合的个性化语音生成实现多语种语音合成系统。当今社会,中英文混合的文本越来越多。为了保证合成语音的自然连贯,通常要求中英文混合的文本内容用一个声音合成出来。然而,由于很多中文发音人的英文并不专业,直接用这种不专业的英文训练出来的模型合成的英文听起来会很不自然。这里,我们提出使用个性化语音生成方法借助一个英文母语发音人的模型,以获得更自然的中文说话人音色的英文合成语音。在使用最大似然语音合成模型自适应修改频谱模型的同时,我们利用说话人转换的韵律调整对韵律模型进行修改以获得更自然的合成韵律。评测结果表明,这种方法可以得到比其他方法更为自然的合成语音和一致的中英文音色。值得一提的是,该系统已被应用于2010年上海世博会官方网站,以帮助弱视人士聆听网站内容。第五部分将对本文进行总结,并对下一步的工作进行展望。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论-个性化语音生成与说话人特征
  • 1.1 说话人发音机理
  • 1.1.1 语音产生的生理机理
  • 1.1.2 语音产生的数学模型
  • 1.2 说话人识别与说话人特征参数
  • 1.2.1 说话人识别
  • 1.2.2 说话人特征参数和分类
  • 1.3 个性化语音生成实用需求
  • 1.3.1 实际使用中能够获得的输入信息
  • 1.3.2 用户对生成语音自然度的要求
  • 1.3.3 用户对生成语音与目标说话人相似度的需求
  • 1.3.4 用户的配合度和可以获得的训练语料的数量
  • 1.3.5 拥有的计算资源和实时性需求
  • 小结
  • 第2章 经典说话人转换方法分析
  • 2.1 基于 GMM 的转换方法
  • 2.2.1 GMM 方法的主要训练方法
  • 2.2.2 GMM 方法的转换过程及结果评价
  • 2.2 码本映射方法
  • 2.2.1 经典的码本映射方法
  • 2.2.2 STASC 码本映射方法
  • 2.3 GMM 方法与 STASC 码本映射方法的联系与区别
  • 2.3.1 相同的训练数据的准备
  • 2.3.2 不同的训练思路
  • 2.4 GMM 方法和码本映射方法问题分析
  • 2.4.1 对应源和目标数据的不匹配问题
  • 2.4.2 转换语音的过平滑问题
  • 小结
  • 第3章 基于映射共振峰的频谱弯曲方法
  • 3.1 基于频谱弯曲的说话人转换方法
  • 3.2 基于映射共振峰的转换方法
  • 3.2.1 基于映射共振峰的频谱弯曲函数训练
  • 3.2.2 频谱转换阶段
  • 3.2.3 基于频谱弯曲的说话人转换系统
  • 3.3 结合频谱弯曲方法和单元挑选的说话人转换算法
  • 3.3.1 训练阶段
  • 3.3.2 转换阶段
  • 3.4 说话人转换评测分析
  • 3.4.1 评测数据和测听人
  • 3.4.2 评测标准
  • 3.4.3 英文评测结果
  • 3.4.4 西班牙语评测结果
  • 小结
  • 第4章 个性化语音生成实现中英文混合语音合成系统
  • 4.1 基于隐马尔可夫模型的语音合成介绍
  • 4.2 中英文模型训练
  • 4.2.1 训练参数设置
  • 4.2.2 以音节为单位的中文模型训练
  • 4.2.3 以音素为单位的英文模型训练
  • 4.3 清浊判决修正
  • 4.4 英文频谱模型最大似然自适应和韵律整体调整
  • 4.4.1 最大似然自适应训练
  • 4.4.2 英文频谱和韵律模型
  • 4.5 合成时中英文共享的韵律结构
  • 4.6 合成语音对比评测及讨论
  • 4.6.1 系统介绍
  • 4.6.2 评测标准
  • 4.6.3 测试句、测听方法和评测人员
  • 4.6.4 评测结果和讨论
  • 小结
  • 第5章 总结与展望
  • 参考文献
  • 在读期间发表的学术论文与取得的其他研究成果
  • 致谢
  • 相关论文文献

    • [1].基于翻转梅尔频率倒谱系数的语音变调检测方法[J]. 计算机应用 2019(12)
    • [2].语音助手能力评估研究及趋势分析[J]. 广东通信技术 2019(12)
    • [3].语音伪造与鉴伪的发展与挑战[J]. 信息安全学报 2020(02)
    • [4].广告语中语音隐喻的使用规则研究[J]. 传播力研究 2020(03)
    • [5].阻止语音欺诈的7种方法[J]. 计算机与网络 2020(09)
    • [6].5G初期语音业务方案与优化策略[J]. 广西通信技术 2019(03)
    • [7].在线语音直播发展动因探析[J]. 视听 2020(09)
    • [8].语音欺骗检测方法的研究现状及展望[J]. 数据采集与处理 2020(05)
    • [9].5G语音回落4G解决方案探讨[J]. 移动通信 2019(04)
    • [10].手机智能语音助手的发展与未来[J]. 通讯世界 2019(04)
    • [11].语音营销,是新机遇,还是新泡沫?[J]. 营销界 2019(02)
    • [12].语音在少数民族口传音乐中的作用——以赫哲族为例[J]. 北极光 2019(06)
    • [13].古交语音与中古语音的比较[J]. 汉字文化 2019(13)
    • [14].手机语音助手用户体验现状及发展[J]. 内蒙古煤炭经济 2019(15)
    • [15].语音助手市场增长惊人[J]. 董事会 2019(10)
    • [16].在线语音直播的兴起与发展探析[J]. 新闻研究导刊 2018(07)
    • [17].基于噪声分类和字典选择的语音活动检测[J]. 华中科技大学学报(自然科学版) 2016(12)
    • [18].语音拣选系统在汽车零部件首批仓库拣选业务中的应用[J]. 物流技术 2017(01)
    • [19].一种基于语音活动检测的声源定位方法[J]. 电脑知识与技术 2017(04)
    • [20].互联网时代语音业务发展的思考分析[J]. 中国新通信 2017(08)
    • [21].一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J]. 华东理工大学学报(自然科学版) 2017(04)
    • [22].语音中继主叫号码的限制[J]. 通讯世界 2017(18)
    • [23].在线语音直播开启直播新战场[J]. 新闻战线 2017(21)
    • [24].基于同轴的广电语音业务的实现[J]. 中国有线电视 2016(08)
    • [25].瑜伽语音冥想对大学生心理健康的积极影响[J]. 赤子(上中旬) 2014(15)
    • [26].语音感知和语音产出——二语语音习得研究梳辨[J]. 语文学刊(外语教育教学) 2015(04)
    • [27].国内外语语音能力研究论析[J]. 宿州学院学报 2015(06)
    • [28].关于语音转换实现的研究[J]. 价值工程 2015(29)
    • [29].浅析语音导览系统在博物馆中的应用[J]. 学理论 2015(32)
    • [30].语音反馈的实践改进[J]. 教学月刊小学版(综合) 2020(06)

    标签:;  ;  ;  ;  ;  ;  ;  

    个性化语音生成研究
    下载Doc文档

    猜你喜欢