中文TTS系统中若干关键技术研究

中文TTS系统中若干关键技术研究

论文摘要

TTS系统是一项非常有用的技术,它可以将任意文本信息转换为语音信号。它可以被用于不同的用途,如汽车导航,电信的呼叫服务,列车站名播报,e-mail阅读等等。现有的基于大语料库的TTS系统已经能够产生高清晰度和自然度的合成语音,并已得到较大的发展和应用,但是还存在着一些问题。尤其引人注目的是其音库巨大,无法将其应用到存储空间受限的设备上去,这就严重地制约了语音合成技术的发展。目前大致有两类解决办法:一类是采用新的参数合成技术,如基于HMM的语音合成系统,另一类是在保持合成语音自然度和清晰度的前提下,降低大语料库中的声学冗余度,从而实现高效率的压缩(小音库TTS系统)。以上两种方法都可以大幅降低TTS系统的存储容量,比较而言:在存储容量方面参数合成方法更有优势,但在合成语音的质量方面,后一类方法更好。本文针对后一类合成系统中的若干关键问题进行了深入的研究,具体的工作成果与创新如下:1、对小音库的TTS系统而言,合成基元库和韵律模型是两个重要的组成部分,而它们的构建都依赖于一个带韵律标注的大语料库。其中连续语音的准确切分和标注是一项十分重要的工作,并且费时费力。为了解决这个问题,本文提出了一种统计与规则相结合的语音自动切分和标注方法。具体的步骤是:首先以两种HMM模型对连续语音做粗切分,然后再针对不同的音素边界类型,采用不同的后处理方法,对HMM的切分结果进行调整,从而实现精确切分。这些后处理的方法将被分别用于检测静音和语音,清音和浊音,以及在谱域上的时间突变点。这种方法不仅简单而且还可以获得较高的切分和标注精度。2、针对实际音节基频包络长度的不同,提出了一种非定长包络的聚类方法,并将其用于以基频为特征的语音库裁减。这种方法首先利用DP的思想,在两个基频包络之间寻找一条最佳路径,然后再沿这一路径进行两包络的相似度计算,若两包络形状类似,距离测度的值会很小,将会被聚在一类。在聚类的基础上,利用调域分层的概念,进行样本挑选,最后再结合现有的语音编码技术,就可以构建出一个小存储容量多样本的带调音节语音库,来满足小音库或嵌入式TTS系统对合成语音清晰度和自然度的要求。3、本文还利用统计的方法,对小音库的TTS系统的韵律模型进行了研究,给出了一组能够预测句子基频包络的方法。句子的基频包络是音节基频包络加静音段形成的。为了预测音节的基频包络,我们首先通过聚类获得音节典型的基频包络(基频包络模板),再采用决策树方法来学习句中音节语境参数到音节基频包络模板的映射规则。然后,利用训练语料,统计计算不同带调音节在不同语境下的基频包络模板控制参数(基频均值、音节时长和声母时长),并建立对应音节的声学参数索引树。最后利用语境参数、基频包络模板预测模型和声学参数索引树就可以产生音节的基频包络,进而得到句子的基频包络。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 语音合成的研究历史
  • 1.2 语音合成中的一些应用问题
  • 1.3 论文的研究意义、工作内容
  • 第二章 基于语料库的TTS系统
  • 2.1 引言
  • 2.2 基于语料库TTS系统的基本框架
  • 2.2.1 文本分析
  • 2.2.2.1 文本结构检测
  • 2.2.2.2 文本的规范化
  • 2.2.2.3 分词和词性标注
  • 2.2.2.4 停顿处理
  • 2.2.2.5 字音转换
  • 2.2.2 韵律产生
  • 2.2.3 单元选择
  • 2.2.4 波形合成
  • 2.2.4.1 韵律修改算法TD-PSOLA
  • 2.2.4.2 合成基元在拼接点的平滑
  • 2.2.5 语料库
  • 2.3 小结
  • 参考文献
  • 第三章 连续语音的自动切分和标注
  • 3.1 引言
  • 3.2 HMM模型的选择
  • 3.3 语音边界的精确切分
  • 3.3.1 音素边界分类
  • 3.3.2 特征检测算法
  • 3.3.2.1 静音检测
  • 3.3.2.2 清浊音判断
  • 3.3.2.3 寻找谱域上突变的时间点
  • 3.3.3 精确切分过程
  • 3.3.3.1 确定静音类边界
  • 3.3.3.2 确定清浊音类边界
  • 3.3.3.3 确定浊清音类边界
  • 3.3.3.4 确定浊浊音类边界
  • 3.3.3.5 一些特殊音素边界的处理
  • 3.4 实验结果
  • 3.5 小结
  • 参考文献
  • 第四章 语音库裁减
  • 4.1 引言
  • 4.2 聚类方法
  • 4.2.1 定长包络的聚类
  • 4.2.2 非定长包络的聚类
  • 4.2.2.1 相似度计算
  • 4.2.2.2 聚类算法
  • 4.3 聚类实验和样本挑选
  • 4.3.1 实验数据
  • 4.3.2 聚类实验
  • 4.3.3 样本挑选
  • 4.3.4 合成实验
  • 4.4 语音库压缩
  • 4.5 小结
  • 参考文献
  • 第五章 韵律建模
  • 5.1 引言
  • 5.2 实验数据
  • 5.3 基本框架
  • 5.4 音节基频包络模板的预测
  • 5.4.1 音节基频包络模板库的建立
  • 5.4.2 建立基频包络模板预测模型
  • 5.4.2.1 决策树基本算法
  • 5.4.2.2 训练和预测结果
  • 5.5 确定基频包络模板控制参数
  • 5.6 句子基频包络的生成
  • 5.7 小结
  • 参考文献
  • 第六章 结论与展望
  • 6.1 研究工作
  • 6.2 展望
  • 附录1 语音分析和标注工具
  • 附录2 一个TTS原型系统
  • 博士期间发表的论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    中文TTS系统中若干关键技术研究
    下载Doc文档

    猜你喜欢