基于拓展和聚类的情感鲁棒说话人识别研究

基于拓展和聚类的情感鲁棒说话人识别研究

论文摘要

说话人识别技术是根据包含在语音波形中特有的个体信息,以声音作为生物特征,自动识别说话人身份的过程。它被认为是最自然的生物认证技术,具有广泛的应用前景。传统说话人识别系统当系统用户在平静状态下训练、测试时,已取得了非常出色的识别性能。然而,当说话人在不同情感状态间转变时,由于说话人情绪的改变引起了发音方式的变化,使得基于中性训练语音的说话人识别系统的性能急剧下降。在综述情感语音处理现状和存在情感影响的说话人识别系统的最新进展的基础上,本文紧紧围绕如何提高训练语音和测试语音之间的情感匹配度这个问题,从情感拓展和聚类角度给出了有效的解决方案,从特征、模型和得分三个层次上提出了构建情感鲁棒的说话人识别模型的关键算法。本文的主要贡献总结如下:1.深入分析了情感语音对说话人识别系统的影响本文分别从文本的相关性、文本的情感性、不同训练情感语料的数量、不同建模方法、不同取得分策略以及不同背景模型等方面对存在情感差异性语音的说话人识别系统进行深入研究。针对情感语音对说话人识别系统的影响,提出了抗情感变化的说话人识别系统的建设对策以及基于拓展和聚类的情感鲁棒说话人识别模型。2.提出了一个基于规则的特征修正方法针对说话人情感状态转变带来的系统训练和测试时情感状态不匹配,基于规则的特征修正方法通过学习相同文本下情感语音和中性语音间的韵律参数变化规则,对系统注册用户的中性语音特征进行修正,有助于丰富训练语音的情感信息,从而较大幅度地提高了识别性能。3.提出了一个基于情感模型间参数迁移规律的特征映射方法本文根据模型自适应UBM-MAP方法中,背景模型与自适应得到的模型中的各个高斯分布分量之间存在一一对应关系这一显著特点,根据情感无关的通用背景模型与情感相关模型之间的参数迁移规律,通过对中性语音特征进行映射,改变中性语音的特征分布,以使训练特征具有情感语音特征的分布信息,有效提高了训练语音和测试语音之间的情感匹配度。4.提出了一个基于情感语音聚类的说话人建模方法根据语音特征空间分布随说话人所处的情感状态的改变而移动,本文认为相似的韵律特征变化产生了倒谱特征在空间分布上相似变形,基于情感语音聚类的说话人建模方法把韵律特征变化趋势一致的情感语音聚类一类,对说话人的情感语音分类建模。实验表明,基于情感语音聚类的说话人建模方法具有良好地表达说话人情感语音特征分布的能力。5.提出了一个基于语音帧加权的得分规整算法文本在研究基于语音帧的说话人系统中目标模型和非目标模型帧似然概率特性的基础上,借鉴语音帧的得分对说话人模型的排序,对得分重加权,有效地增加了正确帧的得分权重,并优化了测试语句的最终得分。同时,该方法改进了传统基于语句的得分规整方法不能提高说话人鉴别率的缺点。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 引言
  • 1.2 说话人识别概述
  • 1.3 情感语音对说话人识别的影响
  • 1.4 消除情感对说话人识别影响的困难
  • 1.5 论文主要工作
  • 第2章 说话人识别系统
  • 2.1 说话人识别系统框架
  • 2.2 特征提取
  • 2.2.1 美尔倒谱系数(MFCC)
  • 2.2.2 线性预测系数(LPC)
  • 2.3 说话人模型
  • 2.3.1 主流说话人模型简介
  • 2.3.2 高斯混合模型(GMM)
  • 2.4 说话人识别性能评价
  • 2.4.1 错误接受率和错误拒绝率
  • 2.4.2 等错误率和DET曲线
  • 2.5 本章小结
  • 第3章 情感语音与存在情感影响的说话人识别研究现状
  • 3.1 情感的描述与分类
  • 3.1.1 情感的描述
  • 3.1.2 情感的分类
  • 3.2 情感语音数据库
  • 3.2.1 实验室表演
  • 3.2.2 自然口音选录
  • 3.3 情感语音特征及其变化规律
  • 3.3.1 基频特征
  • 3.3.2 能量(Intensity)音强
  • 3.3.3 语速(duration)音长
  • 3.3.4 韵律结构和重音
  • 3.3.5 音质
  • 3.4 情感语音的合成
  • 3.4.1 如何提高语音的自然度
  • 3.4.2 现有的技术和方法
  • 3.5 情感语音下的说话人识别
  • 3.6 本章小结
  • 第4章 说话人识别系统性能受情感语音影响的研究
  • 4.1 说话人系统设置
  • 4.1.1 MASC CCNT实验语音数据库
  • 4.1.2 EPST实验语音数据库
  • 4.1.3 基本参数设置
  • 4.2 情感语音对说话人系统的影响
  • 4.2.1 基准实验
  • 4.2.2 训练语料文本相关性对系统性能的影响
  • 4.2.3 训练语料文本情感性对系统性能的影响
  • 4.2.4 不同训练情感语料数量对系统性能的影响
  • 4.2.5 不同建模方法对对系统性能的影响
  • 4.2.6 不同取得分策略对系统性能的影响
  • 4.2.7 不同背景模型对系统性能的影响
  • 4.3 建设抗情感变化的说话人系统的对策
  • 4.4 基于拓展和聚类的情感鲁棒说话人识别模型
  • 4.5 本章小结
  • 第5章 基于规则的特征修正方法
  • 5.1 算法思想
  • 5.2 特征的统计分析
  • 5.2.1 音强分析
  • 5.2.2 时长分析
  • 5.2.3 基频分析
  • 5.3 特征修正
  • 5.3.1 对音强的修正
  • 5.3.2 对发音持续时间的修正
  • 5.3.3 对基音频率的修正
  • 5.4 说话人建模与识别
  • 5.5 实验结果计分析
  • 5.5.1 相同文本和不同文本的比较
  • 5.5.2 基于修正的情感特征与真实情感特征的比较
  • 5.5.3 不同修正情感语音数量的比较
  • 5.5.4 基于不同韵律特征修正的比较
  • 5.6 本章小结
  • 第6章 基于情感模型间参数迁移规律的特征映射方法
  • 6.1 算法思想
  • 6.2 模型参数迁移学习
  • 6.2.1 通用背景模型(UBM)
  • 6.2.2 情感相关模型
  • 6.2.3 迁移参数选择
  • 6.3 特征映射
  • 6.4 实验及讨论
  • 6.4.1 不同UBM训练集的比较
  • 6.4.2 与通用GMM-UBM的比较
  • 6.5 本章小结
  • 第7章 基于情感语音聚类的说话人建模方法
  • 7.1 算法思想
  • 7.2 语音聚类模型
  • 7.3 韵律特征选取及语音分割
  • 7.3.1 语音分割
  • 7.3.2 韵律特征计算
  • 7.3.3 语音段表达式生成
  • 7.3.4 说话人性别判断
  • 7.3.5 确定聚类中心
  • 7.3.6 对训练语音进行聚类
  • 7.4 说话人建模
  • 7.5 实验结果及分析
  • 7.5.1 建模方式比较实验
  • 7.5.2 不同语料数量的比较
  • 7.5.3 不同韵律特征的比较
  • 7.6 本章小结
  • 第8章 基于语音帧加权的得分规整算法
  • 8.1 算法思想
  • 8.2 得分规整分析
  • 8.2.1 得分计算
  • 8.2.2 语音帧规整
  • 8.3 得分规整算法
  • 8.3.1 log域上的得分规整
  • 8.3.2 规整算法
  • 8.3.3 规整函数
  • 8.4 实验结果计分析
  • 8.4.1 不同权重函数的比较
  • 8.4.2 不同规整方法的比较
  • 8.5 不同层次情感补偿方法的比较
  • 8.5.1 MASC库上的实验
  • 8.5.2 EPST库上的实验
  • 8.6 本章小结
  • 第9章 总结和展望
  • 9.1 总结
  • 9.2 未来的工作方法
  • 附录1
  • 参考文献
  • 攻读博士学位期间主要的研究成果
  • 致谢
  • 作者简历
  • 相关论文文献

    • [1].基于说话人的音频分割与聚类[J]. 心智与计算 2010(02)
    • [2].基于变分贝叶斯改进的说话人聚类算法[J]. 数据采集与处理 2017(01)
    • [3].基于说话人辨识的自上而下听觉显著性注意模型[J]. 计算机系统应用 2017(07)
    • [4].说话人用意的认知加工机制:基于误解分析的证据[J]. 外语教学 2016(04)
    • [5].“权威度”视角下终助词「ね」的附加考察[J]. 散文百家(理论) 2020(09)
    • [6].润泽有效的课堂,从引导学生学会倾听开始[J]. 快乐阅读 2016(24)
    • [7].那些有故事的“说话人”[J]. 长江丛刊 2017(01)
    • [8].汉日位移动词比较研究[J]. 唐山文学 2017(02)
    • [9].简约而不简单的英语实用口语[J]. 初中生辅导 2016(36)
    • [10].临时性词汇及其语用功能探析[J]. 青年文学家 2017(09)
    • [11].说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J]. 外语学刊 2013(06)
    • [12].论词层级上说话人意义的形成因素[J]. 外语教学 2013(06)
    • [13].基于卷积长短期记忆网络的说话人辨识[J]. 信息通信 2020(08)
    • [14].说话人聚类的初始类生成方法[J]. 计算机工程与应用 2017(03)
    • [15].说话人视角下“来”的参照点问题再认识[J]. 语言教学与研究 2017(02)
    • [16].基于改进的深度神经网络的说话人辨认研究[J]. 电子器件 2017(05)
    • [17].基于语速差异的新闻发布会中首要说话人检测[J]. 计算机工程与应用 2015(04)
    • [18].一种多说话人角色聚类方法[J]. 华南理工大学学报(自然科学版) 2015(01)
    • [19].基于深层说话人矢量的说话人检索[J]. 华中科技大学学报(自然科学版) 2015(07)
    • [20].论说话人交际策略选择的影响因素[J]. 青年文学家 2014(27)
    • [21].汉语语音合成中说话人自适应的时长优化[J]. 清华大学学报(自然科学版) 2013(11)
    • [22].基于话者无关模型的说话人转换方法[J]. 模式识别与人工智能 2013(03)
    • [23].基于辨别性深度信念网络的说话人分割[J]. 清华大学学报(自然科学版) 2013(06)
    • [24].说话人分割聚类研究进展[J]. 信号处理 2013(09)
    • [25].新闻故事中的关键说话人发现方法[J]. 计算机工程与设计 2012(06)
    • [26].一种基于性别的说话人索引算法[J]. 计算机工程与科学 2012(06)
    • [27].基于NIST评测的说话人分类及定位技术研究[J]. 电子与信息学报 2011(05)
    • [28].说话人意义及其结构的研究维度——语言主观意义研究(一)[J]. 外语教学 2011(05)
    • [29].反讽话语说话人的意向及其常规推理[J]. 河北理工大学学报(社会科学版) 2010(02)
    • [30].用于说话人辨识的评分规整[J]. 计算机工程与应用 2010(12)

    标签:;  ;  ;  ;  ;  

    基于拓展和聚类的情感鲁棒说话人识别研究
    下载Doc文档

    猜你喜欢