基于SVM的话者确认关键技术研究

基于SVM的话者确认关键技术研究

论文摘要

随着说话人识别技术的日益成熟,研究人员开始专注于研究实际应用中复杂环境下的说话人识别技术来不断提升话者识别基线系统的性能,从而逐渐将话者识别技术向实用化推进。近年来,如何提取到更具区分能力的前端特征,建立一个推广性强的说话人模型开始受到说话人识别领域各著名研究机构的重视。与此同时,复杂环境下的信道补偿以及多系统间的融合方法的研究,也日益引起越来越多研究者的关注。在这种背景下,本文从整个系统构建的角度出发,以打造一个具有国际竞争力的话者确认系统为目标,借助于SVM强大的分类能力,围绕着构成一套成功的话者确认系统最关键的核心技术:模型训练,信道补偿、得分融合以及最重要的特征提取这四个方面展开了较系统而深入的研究。从而在较大程度上提升实际系统的性能,本论文的主要工作及创新点如下:首先,我们着眼于“话者模型训练”这一关键技术进行了较深入的研究:我们首先搭建了一个基于混合高斯超向量-支持向量机(GSV-SVM)的话者确认原型系统,接着对该原型系统的各模块进行了分析和改进。通过大量实验和分析发现SVM应用在话者确认建模时的正负样本非平衡问题严重降低了系统性能。为了解决非平衡问题,我们接着在本文中提出了两种方法:基于话者模型距离的度量方法(SMD)和支持向量重训练方法(SVRT)。SMD通过计算目标与冒认话者之间的模型间距离远近来判断两者之间的相似度,从而选择相似度大的冒认话者数据来做SVM负例样本。而后者则是在保持目标话者数据始终不变的情况下,直接使用SVM的区分特性,从海量数据中选择出最具代表的支持向量(SV)作为最后目标话者模型训练时的负例。这两种算法都在一定程度上解决了非平衡问题,从而达到提高性能的目标。其次,本论文在GSV-SVM系统框架基础上,针对复杂环境下的信道干扰问题,对现有扰动属性投影算法(NAP)做了几个方面的改进,提出了一种话路变化主成分分析算法(SVPCA-WCCN)。该算法在训练信道空间时,不仅利用了训练数据已知的信道类型标识信息,而且还考虑到在训练过程中增大不同话者模型之间的区分性,使得数据集合中已知的话者标识信息也得到了充分利用。该算法同时还起到了降维的作用。最终结合类内协方差归一化技术,对经过在信道干扰消除后的说话人空间进行投影后的特征向量进行平滑,从而进一步消除训练和测试之间的不匹配因素,得到鲁棒的目标话者模型。本算法在NIST数据库上的各种实验中都取得了较好的结果。第三,高层韵律特征参数因为其特征提取具有一定的难度而使其发展举步维艰。然而,这些特征的确具有良好的稳定性,不易受信道及噪声的影响,而且还能反映说话者的说话风格、习惯等具有良好区分性的个性特征。为了挖掘存在于高层韵律特征中的话者身份信息来进一步增强已经较成熟的基于底层声学特征参数的话者确认系统的性能,本文提出了一种采用韵律特征的话者确认方法:我们先介绍了韵律特征参数提取的若干细节,接着给出了话者确认系统的整个框架,最后给出了韵律特征在实际应用中需要用到的关键技术-分段加权融合算法(SWF)。在NIST数据库上的实验结果验证了韵律特征和声学参数特征的互补性,系统融合后可以较大地提升性能。该研究同时在话者确认的三大关键技术“特征提取、模型训练、得分融合”中都体现出了其贡献,从整个系统级的角度对基于韵律特征的话者确认系统做了全面的定位和分析。最后,本文针对话者确认中最本质的关键技术-“特征提取”进行了深入的思考,提出了一种全新的声纹特征,即基于谐波噪声模型HNM分解的频谱子带能量比特征参数(SSERs)。接着在SSERs特征的基础上进行了进一步深入的研究,提出了谐波子带能量和噪声子带能量特征。为了进一步完善新特征参数的提取方法,我们还提出了一种结合能量VAD和基音同步清浊音判断的后处理方法来更好的挖掘原始语音中存在的话者身份信息。我们首先将语音信号帧采用HNM进行分解,得到谐波和噪声两个成分,通过观察和分析语音信号帧在谐波和噪声部分频谱中每个频率子带的能量发现,即使是不同的两个目标话者在发同一个音的时候,这种子带能量的统计特性都能较好的反映他们之间的话者身份差异。为了突出所提特征的作用,我们排除其他因素的干扰,选择在干净环境下录制的中文863数据库进行验证实验。目前的结果表明,基于子带能量的一系列新特征参数已经能够在性能上超过传统的基于声学倒谱参数的特征,这为突破传统说话人识别中前端特征参数提取的深入研究奠定了一定的基础。

论文目录

  • 摘要
  • ABSTRACT
  • 主要符号对照表
  • 目录
  • 表格
  • 插图
  • 第一章 绪论
  • 1.1 说话人识别及其简史
  • 1.1.1 背景
  • 1.1.2 说话人识别概述
  • 1.1.3 说话人识别的应用
  • 1.1.4 说话人识别历史回顾
  • 1.2 说话人确认中存在的问题
  • 1.3 主流说话人确认系统及其主要构成(GMM-UBM)
  • 1.3.1 特征提取
  • 1.3.2 说话人模型建立及测试
  • 1.3.3 测试得分及其归整
  • 1.4 说话人确认系统的评价标准
  • 1.5 标准数据库
  • 1.5.1 NIST数据库
  • 1.5.2 863汉语连续语音标准数据库
  • 1.6 论文的组织结构
  • 第二章 基于GSV-SVM的话者确认
  • 2.1 引言
  • 2.2 支持向量机
  • 2.3 GMM超向量核函数
  • 2.3.1 GMM超向量
  • 2.3.2 GMM超向量线性核函数
  • 2.4 GSV-SVM话者确认系统
  • 2.4.1 系统框架
  • 2.4.2 SVM话者模型训练中样本非平衡处理技术
  • 2.4.3 支持向量重训练方法(SVRT)
  • 2.4.4 基于话者模型距离的度量方法(SMD)
  • 2.5 实验及结果
  • 2.5.1 实验细节及参数配置
  • 2.5.2 结果及分析
  • 2.6 本章小结
  • 第三章 GSV-SVM话者确认系统中的复杂信道补偿
  • 3.1 引言
  • 3.2 关键技术
  • 3.2.1 联合因子分析(JFA)
  • 3.2.2 扰动属性投影(NAP)
  • 3.2.3 类内协方差规整(WCCN)
  • 3.2.4 话路变化主成分分析(SVPCA-WCCN)
  • 3.3 比较实验及结果
  • 3.3.1 NAP算法验证实验
  • 3.3.2 NIST SRE2008国际说话人识别评测中NAP和JFA结果对比
  • 3.3.3 SVPCA-WCCN算法验证实验
  • 3.4 本章小结
  • 第四章 采用韵律特征的说话人确认算法
  • 4.1 引言
  • 4.2 采用韵律特征的说话人确认算法
  • 4.2.1 韵律特征参数提取
  • 4.2.2 NWCCN特征变换
  • 4.2.3 SVR说话人建模
  • 4.3 分段加权融合算法SWF
  • 4.4 实验及结果
  • 4.4.1 特征参数提取
  • 4.4.2 实验数据
  • 4.4.3 基线系统GMM-UBM描述
  • 4.4.4 基于MFCC的GSV-NAP-SVM系统描述
  • 4.4.5 SVR-NWCCN韵律特征系统描述
  • 4.4.6 特征层面上融合
  • 4.4.7 得分域上融合
  • 4.4.8 实验结果
  • 4.5 本章小结
  • 第五章 谐波噪声模型在话者识别新特征提取方面的探究
  • 5.1 引言
  • 5.2 基于谐波噪声模型的语音分析
  • 5.2.1 谐波噪声模型HNM简介
  • 5.2.2 HNM中需要估计的参数
  • 5.3 从谐波噪声分解角度探究新特征的出发点
  • 5.4 话者识别中谐波噪声部分语音分析
  • 5.5 频谱子带能量比特征参数
  • 5.6 谐波和噪声子带能量特征参数
  • 5.7 新特征参数的后处理技术
  • 5.8 实验及结果
  • 5.8.1 实验数据
  • 5.8.2 实验任务描述
  • 5.8.3 系统描述
  • 5.8.4 结果及分析
  • 5.9 本章小结
  • 第六章 总结
  • 6.1 论文的主要贡献
  • 6.2 进一步的研究方向
  • 参考文献
  • 致谢
  • 个人简历及在读期间发表的论文
  • 相关论文文献

    • [1].不同言语风格对法庭说话人识别的影响[J]. 中国刑警学院学报 2020(03)
    • [2].细菌趋药性算法在说话人识别中的应用[J]. 宿州学院学报 2017(11)
    • [3].基于修正Fukunaga-Koontz变换的说话人识别方法[J]. 电子器件 2018(04)
    • [4].说话人识别中基于深度信念网络的超向量降维的研究[J]. 电脑知识与技术 2017(22)
    • [5].基于Mahalanobis距离的说话人识别模型研究[J]. 中国语音学报 2016(00)
    • [6].基于自适应同源方差控制的法庭自动说话人识别[J]. 应用科学学报 2014(06)
    • [7].一种低信噪比下的说话人识别算法研究[J]. 计算机应用与软件 2014(12)
    • [8].基于元音共振峰特征的法庭说话人识别[J]. 中国刑警学院学报 2014(02)
    • [9].应用似然比框架的法庭说话人识别[J]. 数据采集与处理 2013(02)
    • [10].基于判别邻域嵌入算法的说话人识别[J]. 电子与信息学报 2019(07)
    • [11].深浅层特征及模型融合的说话人识别[J]. 声学学报 2018(02)
    • [12].基于AutoEncoder DBN-VQ的说话人识别系统[J]. 计算机技术与发展 2018(02)
    • [13].基于分层识别的快速说话人识别研究[J]. 计算机工程与科学 2018(07)
    • [14].特征音方法在说话人识别中的应用[J]. 计算机系统应用 2013(08)
    • [15].自组织特征映射神经网络在说话人识别中的应用[J]. 科技信息 2009(01)
    • [16].基于聚类分析的说话人识别研究[J]. 仪器仪表用户 2008(01)
    • [17].弯折滤波器在说话人识别的鲁棒特征提取中的应用[J]. 计算机系统应用 2017(12)
    • [18].说话人识别算法鲁棒性研究[J]. 南京工程学院学报(自然科学版) 2017(03)
    • [19].反蓄意模仿说话人识别系统中特征参数提取的研究[J]. 微型机与应用 2016(12)
    • [20].基于说话人识别的门禁系统的设计[J]. 才智 2012(12)
    • [21].与文本无关说话人识别特征提取的改进[J]. 电声技术 2008(11)
    • [22].面向说话人识别的甘肃临夏少数民族方言语音库的建设[J]. 兰州文理学院学报(自然科学版) 2019(06)
    • [23].基于压缩感知的鲁棒性说话人识别参数研究[J]. 计算机技术与发展 2016(03)
    • [24].基于组合特征参数的说话人识别系统设计[J]. 信息与电脑(理论版) 2014(20)
    • [25].基于小波包分解的抗噪说话人识别特征参数[J]. 通信技术 2010(12)
    • [26].基于具有深度门的多模态长短期记忆网络的说话人识别[J]. 激光与光电子学进展 2019(03)
    • [27].说话人识别中的分数域语速归一化[J]. 清华大学学报(自然科学版) 2018(04)
    • [28].基于因子分析概率统计模型的说话人识别[J]. 安阳师范学院学报 2017(05)
    • [29].说话人识别技术及其在工厂自动控制系统中的应用[J]. 企业技术开发 2015(08)
    • [30].与文本无关说话人识别[J]. 计算机与数字工程 2014(02)

    标签:;  ;  ;  ;  ;  ;  

    基于SVM的话者确认关键技术研究
    下载Doc文档

    猜你喜欢