语音转换的关键技术研究

论文题目: 语音转换的关键技术研究

论文类型: 博士论文

论文专业: 信息与通信工程

作者: 李波

导师: 张尔扬,刘云辉

关键词: 语音转换,基音周期变换,频谱倾斜,频谱包络转换

文献来源: 国防科学技术大学

发表年度: 2005

论文摘要: 语音转换是要改变一个说话人的语音,使之听起来象是另外一个人的语音。语音转换是语音信号处理领域的一个较新的分支,具有很重要的理论价值和实用价值。语音转换用于文-语转换系统中,可以容易地合成出不同说话人个性特征的语音;它也可以用于电影配音、极低速率语音编码、语音通信的说话人加密、语音的说话人模拟等。语音转换的研究对语音分析、语音编码、语音合成、语音增强、语音识别、说话人识别等语音信号处理的其它各个领域有重要的促进作用。本文主要围绕语音转换中的基音周期变换和谱包络转换两项关键技术进行研究,研究了基于小语料库训练的语音转换系统。对基音周期变换方法的研究:在基于宽带TD-PSOLA基音周期变换方法的研究中,发现分析窗长取源语音和目标语音两者较小基音周期两倍的效果优于取两者较大基音周期两倍的效果,对其原因进行了分析研究。FD-PSOLA中的压缩-扩展法在进行基音周期变换时,会引起相位谱压缩或扩展现象,从而使相位变化率发生变化,这会引起基音周期变换后语音的失真,为克服相位变化率的变化,我们提出分段线性相位建模方法,基于该相位模型在频域通过压缩-扩展法进行基音周期变换时,可以保证各谐波处的相位变化率近似不变;对每一帧进行处理后的语音信号帧中心不会发生漂移,而且与原语音波形更加接近,从而提高基音周期变换语音质量。FD-PSOLA中压缩-扩展法在进行基音周期变换时,不仅会引起相位的变化率发生变化,也会引起基频谐波的压缩-扩展现象,这同样是不合理的,会引起基音周期变换后语音质量的下降;为此,我们提出伪谐波语音分析-合成模型;基于该语音模型在进行基频变换时可以保证各基频谐波结构不发生压缩-扩展现象,从而高质量的实现基音周期变换,基于该模型也可以很方便的实现时长和能量的变换。对频谱包络表示相关问题的研究:基于时域信号求解自相关方程是计算LPC系数的传统方法,当LPC阶数较低时得到的LPC谱包络平滑但不够准确,而当LPC阶数较高时,女声语音的LPC谱包络易受基频谐波影响且常比较尖锐,而基于语音信号的幅度谱包络求解得到的LPC系数能比较好的克服这一缺点。对LPC参数与LSF参数相互转换进行研究,推导出几种不同的由LPC参数求解LSF参数的方法。基于幅度谱包络求得的倒谱谱包络较基于幅度谱求得的谱包络更加准确,在此基础上,提出基于Mel尺度拉伸阶梯谱包络求解MFCC参数的方法,该方法求解简单,性能稳定,得到的MFCC-线性谱包络能非常准确的表示低频处的谱包络。对谱包络转换方法的研究:研究了目前报道的各种谱包络转换实现方法,着重研究基于双线性函数来进行谱包络转换。基于双线性函数进行谱包络转换,具有转换参数少(只有一个)、易保持系统稳定等优良特性,特别适合小词汇量训练的语音转换系统;研究了基于求解频谱搬移系统单位冲击响应的方法;提出两种求解频谱搬移后LPC系数的方法;提出基于DFT分析和LPCC谱包络进行谱包络变换方法,并提出三种求解频谱搬移后LPCC谱包络的算法;提出基于DFT分析和DCT倒谱包络进行谱包络变换方法,并提出三种求解频谱搬移后DCT倒谱包络的算法;提出通过训练得到转换参数的方法。对频谱倾斜补偿的研究:频谱倾斜也是语音信号的一个重要个性特征,研究利用临界倾斜滤波器的两个函数进行频谱倾斜补偿,并研究了通过训练自动提取频谱倾斜补偿参数的方法。频谱倾斜补偿可以比较有效的弥补双线性函数不能改变频谱幅度的缺点,使得到的转换谱包络更加准确。

论文目录:

图目录

表目录

摘要

ABSTRACT

第一章绪论

1．1 语音转换定义

1．2 语音转换的意义

1．3 语音转换研究的历史和现状

1．4 目前语音转换达到的性能状况及存在问题

1．5 本文的研究目标及主要工作

1．6 论文内容安排

第二章语音转换的相关问题介绍

2．1 引言

2．2 语音产生机理

2．3 人的发生器官的差异及声学参数的差异

2．3．1 不同人喉部生理结构差异及与声源有关的声学参数

2．3．2 不同人声道生理结构差异及与声道有关的声学参数

2．4 语音个性特征参数

2．4．1 语音个性特征的声学参数的区别及分类

2．4．2 声学参数对语音个性特征的贡献比较

2．4．3 不同音素对语音个性特征的贡献比较

2．5 语音转换系统

2．5．1 语音转换的目的和分类

2．5．2 语音转换系统结构和组成

2．6 语音转换性能测试方法

2．6．1 客观测试方法

2．6．2 主观测试方法

2．7 本章小结

第三章韵律值建模及转换方法

3．1 引言

3．2 基音周期值的建模和转换

3．2．1 以平均基音周期比值为变化率转换法

3．2．2 高斯模型转换法

3．2．3 句子码书模型转换方法

3．2．4 Fujisaki模型转换方法

3．3 时长值的建模和转换

3．4 能量变换

3．5 本章小结

第四章韵律转换实现方法

4．1 引言

4．2 TD-PSOLA韵律变换法

4．2．1 TD-PSOLA韵律变换实现方法

4．2．2 窗长的选择

4．2．3 TD-PSOLA韵律变换法的优点和缺点

4．3 基于分段线性相位模型的FD-PSOLA韵律变换法

4．3．1 压缩-扩展法(compression-expansion)

4．3．2 删除-复制法(elimination-repetition)

4．3．3 分段线性相位建模

4．4 伪谐波基音周期变换法研究

4．4．1 语音分析及伪谐波语音模型的提出

4．4．2 伪谐波语音模型的分析和参数提取

4．4．3 基于伪谐波语音模型的语音合成

4．4．4 伪谐波语音模型的时长变换法

4．4．5 基于伪谐波语音模型谐波平移基音周期变换法

4．4．6 基于伪谐波语音模型的删除-复制基音周期变换法

4．5 本章小结

第五章频谱包络表示的相关问题

5．1 引言

5．2 线性预测分析法

5．3 基于幅度谱包络求LPC系数及LPC谱包络

5．4 反射系数

5．5 对数面积比系数

5．6 由LPC系数求解LPC倒谱(LPCC)

5．7 由LPC系数求解 PLAR

5．8 LPC系数与LSF相互转换

5．8．1 由LPC系数向LSF参数转换

5．8．2 由LSF系数向LPC参数转换

5．9 基于幅度谱包络求 CEP倒谱及 CEP倒谱包络

5．10 基于幅度谱包络求 MFCC及 MFCC-线性谱包络

5．11 基于MFCC-线性谱包络和 CEP谱包络的混合谱包络

5．12 本章小结

第六章频谱包络转换方法

6．1 引言

6．2 矢量量化法

6．3 说话人插值法

6．4 线性多变量回归法

6．5 动态频率规整(DFW)

6．6 神经网络法

6．7 高斯混合模型法(GMM)

6．8 基于重采样法

6．9 HMM法

6．10 用全通函数进行频谱弯折

6．11 本章小结

第七章用双线性转换函数进行非线性频谱搬移

7．1 引言

7．2 双线性转换函数

7．3 基于系统单位冲激响应进行频谱搬移

7．3．1 语音的 LPC分析

7．3．2 系统单位冲激响应数的两种求解方法

7．3．3 频谱搬移后的系统单位冲激响应求解

7．3．4 基于系统单位冲激响应进行频谱搬移

7．3．5 不同音的系统单位冲激响应收敛情况分析

7．3．6 系统单位冲激响应收敛情况对谱包络的影响

7．3．7 系统单位冲激响应收敛情况对语音分析合成的影响

7．3．8 分析帧长不同对系统单位冲激响应收敛情况的影响

7．3．9 LPC阶数不同对系统单位冲激响应收敛情况的影响

7．3．10 频谱搬移对系统单位冲激响应收敛情况的影响

7．3．11 语音信号采样频率不同频谱搬移的影响

7．3．12 频谱搬移实验

7．4 由频谱搬移后的系统单位冲激响应求解频谱搬移后 LPC系数的方法

7．5 基于DFT变换求频谱搬移后 LPC系数的方法

7．6 基于 LPC谱包络和 DFT分析的频谱弯折

7．7 基于LPCC谱包络和 DFT分析的频谱弯折

7．7．1 基于LPC系数求 LPCC谱包络

7．7．2 插值法求弯折 LPCC谱包络

7．7．3 递推法求弯折 LPCC系数

7．8 基于 DCT倒谱包络和 DFT分析进行谱包络弯折

7．8．1 基于弯折后的 DFT变换求弯折后倒谱谱包络

7．8．2 基于弯折函数插值求弯折后倒谱谱包络

7．8．3 基于递推法求弯折后倒谱谱包络

7．8．4 频谱弯折实验

7．9 不同的 LPC系数求解方法对频谱搬移性能的影响

7．10 频谱弯折参数值自动获取方法

7．11 本章小结

第八章对频谱倾斜进行校正处理

8．1 引言

8．2 临界倾斜滤波器

8．3 运用临界倾斜滤波器来进行频谱倾斜补偿

8．4 频谱倾斜补偿参数自动提取

8．5 本章小结

第九章基于小语料库训练的语音转换系统

9．1 引言

9．2 基于小语料库训练的语音转换系统

9．3 语音转换效果评估

9．4 本章小结

第十章结束语

10．1 本文所作的主要工作

10．2 后继的研究工作

致谢

参考文献表

附录

附录1

附录2

附录3

攻读博士学位期间发表的论文

发布时间: 2005-11-07

参考文献

[1].低速率语音编码算法研究[D]. 计哲.清华大学2011
[2].基于多带激励模型的低速率语音编码技术研究[D]. 李烨.西安电子科技大学2011
[3].多带混合激励低速率语音编码的研究[D]. 王都生.西安电子科技大学1998

语音转换的关键技术研究

猜你喜欢