说话人辨认中的特征变换和鲁棒性技术研究

说话人辨认中的特征变换和鲁棒性技术研究

论文摘要

为了提高说话人辨认系统的性能和在实际应用中的鲁棒性,本论文在高斯混合模型特征变换、特征加权补偿变换和自适应直方图均衡化三个方面进行了研究,主要研究成果包括:1.提出了基于嵌入变换的对角方差矩阵高斯混合模型的多步聚类算法。为了简便计算,高斯混合模型中的方差矩阵通常直接用对角方差矩阵代替,因而会对相似度的计算产生损失。为了弥补由于采用对角方差矩阵而引起的相似度损失,提出了基于嵌入变换的对角方差矩阵高斯混合模型的多步聚类算法。该方法采用嵌入变换的对角方差矩阵来建立模型;同时将多步聚类算法融入其中,使高斯混合模型能找到其最适合的模型混合数。与普通聚类期望最大(EM)算法相比,多步聚类算法所需的EM估计次数明显减少;与聚类EM估计的GMM方法相比,在同一语音库下平均计算时间降低了约50%,错误识别率平均减少1.4%;在自制和公开的两个语音库下,与嵌入变换的GMM估计方法相比,新方法都可以直接达到说话人辨认错误识别率的最佳点,达到了识别效果和识别时间的统一。2.提出了基于高斯混合模型的加权特征补偿变换的抗噪声算法。针对特征加权算法的局限性和归一化补偿变换方法的特性,提出了基于高斯混合模型的加权特征补偿变换的抗噪声算法。一方面根据帧信噪比对特征值的贡献大小进行加权;另一方面根据说话人识别的声学特性对模型输出的似然得分进行变换,补偿了加权因子在某些环境下的局限性。对于不同信噪比的平稳和非平稳噪声环境,在自制语音库下,与特征加权算法相比,该算法平均识别率提高了2.74%和2.82%;与归一化补偿变换方法相比,平均识别率提高了3.56%和1.34%。在另一公开语音数据集下,与特征加权算法相比,该算法平均识别率提高了3.02%和2.56%;与归一化补偿变换方法相比,平均识别率提高了3.9%和1.14%。3.提出了基于统计模型的自适应直方图均衡化方法。针对说话人特征的统计特性和直方图均衡化在说话人识别中应用的不足之处,提出了应用于说话人辨认中的自适应直方图均衡化方法。该方法首先用较大的区间长度来构造直方图的累积函数,然后根据各区间内特征值频率增量的大小来自适应确定该区间是否需要再划分以及划分的程度。采用这种方法不仅使计算量降低,而且得到的变换特征值的分布更符合实际特征空间,从而进一步提高了噪声环境下说话人辨认系统的识别率和鲁棒性。在同一测试集下,研究两种常用经典噪声(即White和Babble),与普通直方图均衡化方法相比,自适应直方图均衡化方法的平均识别率分别提高了3%和2.9%。在另一公开对比测试集中,该方法的性能同样有相似的提高。

论文目录

  • 摘要
  • Abstract
  • 1.绪论
  • 1.1.说话人识别概述
  • 1.1.1.背景及意义
  • 1.1.2.说话人识别基本原理
  • 1.2.说话人识别系统的研究与发展
  • 1.3.说话人识别中的特征提取与分析
  • 1.4.说话人识别中的识别方法
  • 1.4.1.模板匹配法
  • 1.4.2.统计概率模型法
  • 1.4.3.人工神经网络
  • 1.4.4.支持向量机法
  • 1.5.性能评价
  • 1.6.研究现状和难点
  • 1.6.1.特征变换
  • 1.6.2.鲁棒性说话人识别
  • 1.7.研究工作概述与安排
  • 1.7.1.工作内容
  • 1.7.2.论文的组织结构
  • 2.基于多步聚类变换算法的说话人辨认
  • 2.1.引言
  • 2.2.基于高斯混合模型的说话人辨认
  • 2.2.1.说话人辨认系统
  • 2.2.2.高斯混合说话人模型
  • 2.2.3.前端处理
  • 2.2.4.MFCC参数
  • 2.3.基于嵌入变换的对角方差高斯混合模型
  • 2.3.1.嵌入变换的对角方差高斯混合模型参数
  • 2.3.2.最大似然估计的EM算法
  • 2.4.基于对角方差矩阵的多步聚类EM算法
  • 2.4.1.基于对角方差矩阵的聚类EM算法
  • 2.4.2.多步聚类算法及其步骤
  • 2.5.实验语音库
  • 2.6.实验
  • 2.6.1.最小描述长度(MDL)比较实验
  • 2.6.2.多步聚类说话人辨认实验
  • 2.7.结论
  • 3.基于加权特征补偿变换的鲁棒性说话人辨认
  • 3.1.引言
  • 3.2.前端处理
  • 3.2.1.语音检测
  • 3.2.2.噪声谱估计
  • 3.2.3.谱减
  • 3.2.4.帧信噪比与加权因子
  • 3.3.加权特征补偿变换算法
  • 3.3.1.加权算法
  • 3.3.2.对帧似然概率的归一化补偿变换
  • 3.3.3.加权特征补偿变换的提出
  • 3.4.鲁棒说话人识别仿真系统
  • 3.4.1.预处理和特征提取
  • 3.4.2.高斯混合模型的建立与识别
  • 3.5.仿真实验与结果分析
  • 3.5.1.仿真系统语音库
  • 3.5.2.加权因子仿真实验
  • 3.5.3.基于加权特征补偿变换的说话人识别方法的仿真研究
  • 3.6.结论
  • 4.基于自适应直方图均衡化的鲁棒性说话人辨认研究
  • 4.1.引言
  • 4.2.直方图均衡化
  • 4.2.1.直方图均衡化原理
  • 4.2.2.分位差直方图均衡化法
  • 4.2.3.数据拟合直方图均衡化
  • 4.3.改进的自适应直方图均衡化
  • 4.3.1.问题的提出
  • 4.3.2.自适应直方图均衡化方法
  • 4.4.鲁棒说话人辨认实验的建立
  • 4.5.实验与结果分析
  • 4.5.1.变换性能实验
  • 4.5.2.效率比较实验
  • 4.5.3.识别性能比较实验
  • 4.6.结论
  • 5.总结与展望
  • 5.1.论文工作总结
  • 5.2.研究展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].基于说话人的音频分割与聚类[J]. 心智与计算 2010(02)
    • [2].基于变分贝叶斯改进的说话人聚类算法[J]. 数据采集与处理 2017(01)
    • [3].基于说话人辨识的自上而下听觉显著性注意模型[J]. 计算机系统应用 2017(07)
    • [4].说话人用意的认知加工机制:基于误解分析的证据[J]. 外语教学 2016(04)
    • [5].“权威度”视角下终助词「ね」的附加考察[J]. 散文百家(理论) 2020(09)
    • [6].润泽有效的课堂,从引导学生学会倾听开始[J]. 快乐阅读 2016(24)
    • [7].那些有故事的“说话人”[J]. 长江丛刊 2017(01)
    • [8].汉日位移动词比较研究[J]. 唐山文学 2017(02)
    • [9].简约而不简单的英语实用口语[J]. 初中生辅导 2016(36)
    • [10].临时性词汇及其语用功能探析[J]. 青年文学家 2017(09)
    • [11].说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J]. 外语学刊 2013(06)
    • [12].论词层级上说话人意义的形成因素[J]. 外语教学 2013(06)
    • [13].基于卷积长短期记忆网络的说话人辨识[J]. 信息通信 2020(08)
    • [14].说话人聚类的初始类生成方法[J]. 计算机工程与应用 2017(03)
    • [15].说话人视角下“来”的参照点问题再认识[J]. 语言教学与研究 2017(02)
    • [16].基于改进的深度神经网络的说话人辨认研究[J]. 电子器件 2017(05)
    • [17].基于语速差异的新闻发布会中首要说话人检测[J]. 计算机工程与应用 2015(04)
    • [18].一种多说话人角色聚类方法[J]. 华南理工大学学报(自然科学版) 2015(01)
    • [19].基于深层说话人矢量的说话人检索[J]. 华中科技大学学报(自然科学版) 2015(07)
    • [20].论说话人交际策略选择的影响因素[J]. 青年文学家 2014(27)
    • [21].汉语语音合成中说话人自适应的时长优化[J]. 清华大学学报(自然科学版) 2013(11)
    • [22].基于话者无关模型的说话人转换方法[J]. 模式识别与人工智能 2013(03)
    • [23].基于辨别性深度信念网络的说话人分割[J]. 清华大学学报(自然科学版) 2013(06)
    • [24].说话人分割聚类研究进展[J]. 信号处理 2013(09)
    • [25].新闻故事中的关键说话人发现方法[J]. 计算机工程与设计 2012(06)
    • [26].一种基于性别的说话人索引算法[J]. 计算机工程与科学 2012(06)
    • [27].基于NIST评测的说话人分类及定位技术研究[J]. 电子与信息学报 2011(05)
    • [28].说话人意义及其结构的研究维度——语言主观意义研究(一)[J]. 外语教学 2011(05)
    • [29].反讽话语说话人的意向及其常规推理[J]. 河北理工大学学报(社会科学版) 2010(02)
    • [30].用于说话人辨识的评分规整[J]. 计算机工程与应用 2010(12)

    标签:;  ;  ;  ;  ;  ;  

    说话人辨认中的特征变换和鲁棒性技术研究
    下载Doc文档

    猜你喜欢