基于人工神经网络模型的说话人转换算法研究

基于人工神经网络模型的说话人转换算法研究

论文摘要

说话人转换是通过将一个说话人(源说话人)的语音个性特征转换成另一个说话人(目标说话人)的语音个性特征,而保持说话内容和情感特征不变的一门技术。经过转换后得到的声音要听起来像目标说话人的声音,同时保持源说话人的说话内容及情感特征不变。该技术具有重要的理论研究价值和良好的应用前景。本文主要围绕说话人转换中的基频轨迹转换和频谱包络参数转换这两项关键技术进行研究,主要工作和创新如下:(1)对目前已有的基频轨迹转换算法进行实验研究比较,发现目前的转换算法大多是简单的线性变换,而事实上两个说话人之间的基频轨迹是非线性映射关系。针对传统转换算法存在的问题(采用线性变换实现基频转换),提出基于RBF神经网络的基频轨迹转换算法,通过将基频轨迹分成等长的数据段,再分别对其进行建模,找出源和目标之间的映射规则,从而实现基频轨迹的转换。主客观测试表明:该算法既提高了特征参数转换的精确性,也增强了合成语音的自然度。(2)传统的说话人转换算法都是将音段信息参数和超音段信息参数独立开来,分别进行转换,最后再一起合成转换语音。而越来越多的研究表明,两者之间隐藏着很大的关联性,可以从一个参数中提取出另一个参数的信息,将其独立开来分别转换的方法,势必会破坏两者之间的联系,影响转换后的效果。针对这一问题,提出将频谱信息参数和基音频率参数结合起来,组成短时联合谱参数,一起作为特征参数进行训练和转换。实验证明:改进后的转换效果均优于同等条件下的传统算法。(3)通过对传统神经网络用于说话人转换算法的研究,发现影响神经网络转换效果的关键因素是隐含层的中心值和权值矩阵。对求解关键因素的算法加以改进,增强转换的精确性,势必会有效提高神经网络的转换效果,基于这样的分析,提出利用量子遗传算法优化神经网络,进而实现说话人转换。主客观实验的测试结果表明:基于改进算法得到的转换语音既提高了与目标语音之间的相似度,也增强了合成语音的清晰度。

论文目录

  • 摘要
  • ABSTRACT
  • 缩略语
  • 目录
  • 第一章 绪论
  • 1.1 说话人转换的定义
  • 1.2 说话人转换的研究意义
  • 1.3 说话人转换的研究历史
  • 1.4 论文的研究目标及主要工作
  • 1.5 论文的结构安排
  • 第二章 说话人转换技术的基本原理
  • 2.1 语音信号的产生机理
  • 2.2 说话人转换框架
  • 2.3 语音信号分析/合成模型
  • 2.3.1 线性预测编码模型
  • 2.3.2 谐波加噪声模型
  • 2.3.3 STRAIGHT模型
  • 2.4 语音信号中的声学参数
  • 2.5 特征参数对齐规则
  • 2.6 声学参数的经典转换算法
  • 2.6.1 频谱参数的转换
  • 2.6.2 基音频率参数的转换
  • 2.7 说话人转换算法的评价方法
  • 2.7.1 客观评价方法
  • 2.7.2 主观评价方法
  • 2.8 本章小结
  • 第三章 量子遗传算法优化神经网络
  • 3.1 人工神经网络基础
  • 3.1.1 人工神经网络的发展历史
  • 3.1.2 人工神经元模型
  • 3.1.3 径向基函数网络
  • 3.2 量子遗传算法介绍
  • 3.2.1 量子技术概述
  • 3.2.2 遗传算法
  • 3.2.3 量子遗传算法
  • 3.3 量子遗传算法优化神经网络
  • 3.3.1 算法介绍
  • 3.3.2 算法性能比较
  • 3.4 本章小结
  • 第四章 基于人工神经网络模型的基频轨迹转换算法研究
  • 4.1 引言
  • 4.1.1 均值转换法
  • 4.1.2 高斯模型法
  • 4.1.3 句子码书模型转换法
  • 4.2 基于人工神经网络模型的基频转换算法
  • 4.2.1 语谱参数的降阶处理
  • 4.2.2 LPC系数到LSF参数的转化
  • 4.3 实验与仿真
  • 4.3.1 语料库
  • 4.3.2 客观测试
  • 4.3.3 主观测试
  • 4.4 本章小结
  • 第五章 基于量子遗传算法的说话人转换算法研究
  • 5.1 引言
  • 5.2 基于量子遗传算法的说话人转换算法
  • 5.2.1 LSF参数到LPC参数的转化
  • 5.2.2 LPC参数到LPCC参数的转化
  • 5.3 实验与仿真
  • 5.3.1 说话人转换系统的性能与系统复杂度之间的关系
  • 5.3.2 说话人转换系统的性能与训练数据量之间的关系
  • 5.3.3 客观测试
  • 5.3.4 主观测试
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 工作总结
  • 6.2 研究展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].基于说话人的音频分割与聚类[J]. 心智与计算 2010(02)
    • [2].基于变分贝叶斯改进的说话人聚类算法[J]. 数据采集与处理 2017(01)
    • [3].基于说话人辨识的自上而下听觉显著性注意模型[J]. 计算机系统应用 2017(07)
    • [4].说话人用意的认知加工机制:基于误解分析的证据[J]. 外语教学 2016(04)
    • [5].“权威度”视角下终助词「ね」的附加考察[J]. 散文百家(理论) 2020(09)
    • [6].润泽有效的课堂,从引导学生学会倾听开始[J]. 快乐阅读 2016(24)
    • [7].那些有故事的“说话人”[J]. 长江丛刊 2017(01)
    • [8].汉日位移动词比较研究[J]. 唐山文学 2017(02)
    • [9].简约而不简单的英语实用口语[J]. 初中生辅导 2016(36)
    • [10].临时性词汇及其语用功能探析[J]. 青年文学家 2017(09)
    • [11].说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J]. 外语学刊 2013(06)
    • [12].论词层级上说话人意义的形成因素[J]. 外语教学 2013(06)
    • [13].基于卷积长短期记忆网络的说话人辨识[J]. 信息通信 2020(08)
    • [14].说话人聚类的初始类生成方法[J]. 计算机工程与应用 2017(03)
    • [15].说话人视角下“来”的参照点问题再认识[J]. 语言教学与研究 2017(02)
    • [16].基于改进的深度神经网络的说话人辨认研究[J]. 电子器件 2017(05)
    • [17].基于语速差异的新闻发布会中首要说话人检测[J]. 计算机工程与应用 2015(04)
    • [18].一种多说话人角色聚类方法[J]. 华南理工大学学报(自然科学版) 2015(01)
    • [19].基于深层说话人矢量的说话人检索[J]. 华中科技大学学报(自然科学版) 2015(07)
    • [20].论说话人交际策略选择的影响因素[J]. 青年文学家 2014(27)
    • [21].汉语语音合成中说话人自适应的时长优化[J]. 清华大学学报(自然科学版) 2013(11)
    • [22].基于话者无关模型的说话人转换方法[J]. 模式识别与人工智能 2013(03)
    • [23].基于辨别性深度信念网络的说话人分割[J]. 清华大学学报(自然科学版) 2013(06)
    • [24].说话人分割聚类研究进展[J]. 信号处理 2013(09)
    • [25].新闻故事中的关键说话人发现方法[J]. 计算机工程与设计 2012(06)
    • [26].一种基于性别的说话人索引算法[J]. 计算机工程与科学 2012(06)
    • [27].基于NIST评测的说话人分类及定位技术研究[J]. 电子与信息学报 2011(05)
    • [28].说话人意义及其结构的研究维度——语言主观意义研究(一)[J]. 外语教学 2011(05)
    • [29].反讽话语说话人的意向及其常规推理[J]. 河北理工大学学报(社会科学版) 2010(02)
    • [30].用于说话人辨识的评分规整[J]. 计算机工程与应用 2010(12)

    标签:;  ;  ;  ;  ;  

    基于人工神经网络模型的说话人转换算法研究
    下载Doc文档

    猜你喜欢