基于人工神经网络模型的说话人转换算法研究

论文摘要

说话人转换是通过将一个说话人(源说话人)的语音个性特征转换成另一个说话人(目标说话人)的语音个性特征,而保持说话内容和情感特征不变的一门技术。经过转换后得到的声音要听起来像目标说话人的声音,同时保持源说话人的说话内容及情感特征不变。该技术具有重要的理论研究价值和良好的应用前景。本文主要围绕说话人转换中的基频轨迹转换和频谱包络参数转换这两项关键技术进行研究,主要工作和创新如下：(1)对目前已有的基频轨迹转换算法进行实验研究比较,发现目前的转换算法大多是简单的线性变换,而事实上两个说话人之间的基频轨迹是非线性映射关系。针对传统转换算法存在的问题(采用线性变换实现基频转换),提出基于RBF神经网络的基频轨迹转换算法,通过将基频轨迹分成等长的数据段,再分别对其进行建模,找出源和目标之间的映射规则,从而实现基频轨迹的转换。主客观测试表明：该算法既提高了特征参数转换的精确性,也增强了合成语音的自然度。(2)传统的说话人转换算法都是将音段信息参数和超音段信息参数独立开来,分别进行转换,最后再一起合成转换语音。而越来越多的研究表明,两者之间隐藏着很大的关联性,可以从一个参数中提取出另一个参数的信息,将其独立开来分别转换的方法,势必会破坏两者之间的联系,影响转换后的效果。针对这一问题,提出将频谱信息参数和基音频率参数结合起来,组成短时联合谱参数,一起作为特征参数进行训练和转换。实验证明：改进后的转换效果均优于同等条件下的传统算法。(3)通过对传统神经网络用于说话人转换算法的研究,发现影响神经网络转换效果的关键因素是隐含层的中心值和权值矩阵。对求解关键因素的算法加以改进,增强转换的精确性,势必会有效提高神经网络的转换效果,基于这样的分析,提出利用量子遗传算法优化神经网络,进而实现说话人转换。主客观实验的测试结果表明：基于改进算法得到的转换语音既提高了与目标语音之间的相似度,也增强了合成语音的清晰度。

论文目录

摘要

ABSTRACT

缩略语

第一章绪论

1.1 说话人转换的定义

1.2 说话人转换的研究意义

1.3 说话人转换的研究历史

1.4 论文的研究目标及主要工作

1.5 论文的结构安排

第二章说话人转换技术的基本原理

2.1 语音信号的产生机理

2.2 说话人转换框架

2.3 语音信号分析/合成模型

2.3.1 线性预测编码模型

2.3.2 谐波加噪声模型

2.3.3 STRAIGHT模型

2.4 语音信号中的声学参数

2.5 特征参数对齐规则

2.6 声学参数的经典转换算法

2.6.1 频谱参数的转换

2.6.2 基音频率参数的转换

2.7 说话人转换算法的评价方法

2.7.1 客观评价方法

2.7.2 主观评价方法

2.8 本章小结

第三章量子遗传算法优化神经网络

3.1 人工神经网络基础

3.1.1 人工神经网络的发展历史

3.1.2 人工神经元模型

3.1.3 径向基函数网络

3.2 量子遗传算法介绍

3.2.1 量子技术概述

3.2.2 遗传算法

3.2.3 量子遗传算法

3.3 量子遗传算法优化神经网络

3.3.1 算法介绍

3.3.2 算法性能比较

3.4 本章小结

第四章基于人工神经网络模型的基频轨迹转换算法研究

4.1 引言

4.1.1 均值转换法

4.1.2 高斯模型法

4.1.3 句子码书模型转换法

4.2 基于人工神经网络模型的基频转换算法

4.2.1 语谱参数的降阶处理

4.2.2 LPC系数到LSF参数的转化

4.3 实验与仿真

4.3.1 语料库

4.3.2 客观测试

4.3.3 主观测试

4.4 本章小结

第五章基于量子遗传算法的说话人转换算法研究

5.1 引言

5.2 基于量子遗传算法的说话人转换算法

5.2.1 LSF参数到LPC参数的转化

5.2.2 LPC参数到LPCC参数的转化

5.3 实验与仿真

5.3.1 说话人转换系统的性能与系统复杂度之间的关系

5.3.2 说话人转换系统的性能与训练数据量之间的关系

5.3.3 客观测试

5.3.4 主观测试

5.4 本章小结

第六章总结与展望

6.1 工作总结

6.2 研究展望

致谢

参考文献

攻读硕士学位期间发表的论文

基于人工神经网络模型的说话人转换算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢