论文摘要
文语转换(TTS)是将文字信息按语音处理规则转换成声音信号输出的技术。它可以使计算机流利地读出文字信息,使人们通过听就可以明白信息的内容。本文着重研究了汉语TTS技术中的文本自动分词,韵律标记以及韵律结构预测三个方面。TTS系统通常由文本分析、韵律控制和语音合成三部分组成。文本分析模块在文语转换系统中起着重要的作用,主要模拟人对自然语言的理解过程,使计算机对输入的文本能完全理解并给出后两部分所需的各种发音提示。其中,分词、注音和词性标注是文本分析最为初始的重要组成部分,也是语言模型需要解决的问题。中文自动分词由于歧义切分,未登录词识别等难点的存在,成为文语转换系统亟需解决的主要问题。N元语法是基于统计的分词算法,相对于其他分词算法,其在歧义切分方面的表现更好,但是它的一些不足也成为它继续发展的瓶颈。本文提出一种在传统的N元语法上结合最大匹配预处理,加入词性消歧并平滑的改进策略,实验证明提高了分词的准确率和召回率。韵律处理为合成语音规划出超音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。文本分词的结果是语法词,但是语法词并不能等同于韵律词,还需要一个韵律处理的过程。语调、节奏和重音这些韵律特征是通过超音段特征的变化表现出来的,因此,这些超音段特征的修改成为韵律控制的基础。本文在XML的基础上提出了一种汉语韵律标记语言,使韵律分析的结果自动标注上这些韵律标记,经过后续处理并最终合成出高自然度的语音。了解和掌握韵律单元的各种边界特征,正确地界定韵律层级边界,把韵律单元从话语中正确切分出来,进而认识话语的韵律结构,是话语表述和话语理解的基础。本文的最后实验分析了韵律层级边界的声学特征,通过引入CART树模型并加入关键结构助词的叶子评估问题达到了提高韵律短语预测精度的效果,从而实现文本处理和韵律处理的融合。