论文摘要
TTS系统是一项非常有用的技术,它可以将任意文本信息转换为语音信号。它可以被用于不同的用途,如汽车导航,电信的呼叫服务,列车站名播报,e-mail阅读等等。现有的基于大语料库的TTS系统已经能够产生高清晰度和自然度的合成语音,并已得到较大的发展和应用,但是还存在着一些问题。尤其引人注目的是其音库巨大,无法将其应用到存储空间受限的设备上去,这就严重地制约了语音合成技术的发展。目前大致有两类解决办法:一类是采用新的参数合成技术,如基于HMM的语音合成系统,另一类是在保持合成语音自然度和清晰度的前提下,降低大语料库中的声学冗余度,从而实现高效率的压缩(小音库TTS系统)。以上两种方法都可以大幅降低TTS系统的存储容量,比较而言:在存储容量方面参数合成方法更有优势,但在合成语音的质量方面,后一类方法更好。本文针对后一类合成系统中的若干关键问题进行了深入的研究,具体的工作成果与创新如下:1、对小音库的TTS系统而言,合成基元库和韵律模型是两个重要的组成部分,而它们的构建都依赖于一个带韵律标注的大语料库。其中连续语音的准确切分和标注是一项十分重要的工作,并且费时费力。为了解决这个问题,本文提出了一种统计与规则相结合的语音自动切分和标注方法。具体的步骤是:首先以两种HMM模型对连续语音做粗切分,然后再针对不同的音素边界类型,采用不同的后处理方法,对HMM的切分结果进行调整,从而实现精确切分。这些后处理的方法将被分别用于检测静音和语音,清音和浊音,以及在谱域上的时间突变点。这种方法不仅简单而且还可以获得较高的切分和标注精度。2、针对实际音节基频包络长度的不同,提出了一种非定长包络的聚类方法,并将其用于以基频为特征的语音库裁减。这种方法首先利用DP的思想,在两个基频包络之间寻找一条最佳路径,然后再沿这一路径进行两包络的相似度计算,若两包络形状类似,距离测度的值会很小,将会被聚在一类。在聚类的基础上,利用调域分层的概念,进行样本挑选,最后再结合现有的语音编码技术,就可以构建出一个小存储容量多样本的带调音节语音库,来满足小音库或嵌入式TTS系统对合成语音清晰度和自然度的要求。3、本文还利用统计的方法,对小音库的TTS系统的韵律模型进行了研究,给出了一组能够预测句子基频包络的方法。句子的基频包络是音节基频包络加静音段形成的。为了预测音节的基频包络,我们首先通过聚类获得音节典型的基频包络(基频包络模板),再采用决策树方法来学习句中音节语境参数到音节基频包络模板的映射规则。然后,利用训练语料,统计计算不同带调音节在不同语境下的基频包络模板控制参数(基频均值、音节时长和声母时长),并建立对应音节的声学参数索引树。最后利用语境参数、基频包络模板预测模型和声学参数索引树就可以产生音节的基频包络,进而得到句子的基频包络。
论文目录
相关论文文献
标签:系统论文; 语音的自动切分和标注论文; 语音库裁减论文; 韵律建模论文;