支持向量机在说话人识别中的应用研究

支持向量机在说话人识别中的应用研究

论文摘要

说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出说话人的过程,它是语音信号处理的一个重要研究方向,作为一种生物认证技术,具有广泛的应用前景,得到人们越来越多的研究。 支持向量机是在统计学习理论上发展出来的一种模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势,同其他模式识别方法相比主要有两个不同点:一是它采用一个非线性核函数来表示特征空间的内积,另外它采用分类间隔最大的最优分类超平面实现结构风险最小化原则。由于支持向量机具有坚实的理论基础,得到越来越多的人们研究,并在各个领域中得到广泛应用。 本文采用支持向量机对说话人进行建模,以文本无关说话人识别为主要研究内容,分别从基于帧向量的说话人支持向量机模型、支持向量机混合模型、基于语句的说话人支持向量机模型和基于通用背景模型的说话人支持向量机模型进行深入的研究。 论文深入分析了基于帧的说话人支持向量机模型中各个方面对识别性能的影响。说话人识别中普遍流行的方法都是使用基于帧的方法,其建模过程一般是使用模型来描述个人语音帧数据的空间分布状况,比如矢量量化模型(VQ)、高斯混合模型(GMM)等等。采用支持向量机来描述个人语音特征的分布时,其输入是说话人的语音帧向量。由于训练支持向量机需要解决一个二次规划问题,一般采用聚类的方法来选择出一些代表性的样本作为支持向量机的输入进行训练。论文分别从选择样本方法、样本集大小、样本集权重、样本得分方式、支持向量机核函数、支持向量机多类分类,支持向量机概率输出等方面进行深入研究。 论文针对说话人语音数据的大规模性和支持向量机解决二次规划问题之间的矛盾,提出基于专家混合和基于迭代训练的支持向量机混合模型用于说话人识别。集成学习是机器学习领域的一个热门方向,Boosting集成学习算法和专家混合算法是人们常用的两种算法,借鉴这两种算法思想并具体结合说话人识别的特殊性,分别提出基于迭代训练的支持向量机混合模型和基于专家混合的支持向量机模型。同时,对于混合得分组合方式,借鉴VQ模型和GMM模型的得分计算思想,分别提出基于距离的计算方式和基于概率的计算方式。 论文根据传统的矢量量化模型和高斯混合模型,提出一类采用偏差信息构造的核函数用于说话人识别。根据矢量量化模型中计算得分的方式,利用最小距离

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 说话人识别概述
  • 1.2 机器学习与支持向量机
  • 1.3 支持向量机与说话人识别
  • 1.4 问题的提出
  • 1.5 论文主要工作
  • 第2章 说话人识别系统
  • 2.1 说话人识别系统结构
  • 2.2 特征提取
  • 2.3 说话人模型
  • 2.4 得分规整
  • 2.5 说话人识别性能评价
  • 2.5.1 等错误率与DET曲线
  • 2.5.2 检测代价函数
  • 2.6 本章小结
  • 第3章 统计学习与支持向量机
  • 3.1 引言
  • 3.2 机器学习的基本问题
  • 3.2.1 问题的表示
  • 3.2.2 经验风险最小化
  • 3.2.3 复杂性与推广能力
  • 3.3 统计学习理论的核心内容
  • 3.3.1 学习过程一致性的条件
  • 3.3.2 VC维
  • 3.3.3 推广性的界
  • 3.3.4 结构风险最小化
  • 3.4 支持向量机
  • 3.4.1 最优分类面
  • 3.4.2 核函数
  • 3.4.3 快速算法
  • 3.4.4 概率输出
  • 3.4.5 多类分类
  • 3.5 本章小结
  • 第4章 基于帧的说话人支持向量机模型
  • 4.1 基于帧的支持向量机模型
  • 4.2 投票得分与软输出得分
  • 4.3 核函数的实验
  • 4.4 选择样本大小实验研究
  • 4.5 冒认者个数的实验
  • 4.6 代表性样本选择的方法
  • 4.6.1 随机选择:
  • 4.6.2 k-mean聚类:
  • 4.6.3 LBG聚类:
  • 4.6.4 高斯聚类:
  • 4.6.5 实验结果比较
  • 4.7 分类样本权重实验研究
  • 4.8 多类分类问题比较实验
  • 4.9 支持向量机的概率输出
  • 4.9.1 一对多的概率输出
  • 4.9.2 一对一的概率输出
  • 4.10 本章小结
  • 第5章 支持向量机混合模型
  • 5.1 引言
  • 5.2 集成学习
  • 5.3 迭代训练的说话人的混合支持向量机模型
  • 5.3.1 Bagging算法与Boosting算法
  • 5.3.2 迭代训练的混合支持向量机说话人模型
  • 5.4 基于专家混合的支持向量机混合模型
  • 5.4.1 支持向量机专家混合模型
  • 5.4.2 基于专家混合的支持向量机说话人模型
  • 5.5 两种得分模型
  • 5.5.1 距离模型
  • 5.5.2 概率混合模型
  • 5.6 YOHO库实验
  • 5.6.1 说话人确认实验
  • 5.6.2 得分方式比较实验
  • 5.6.3 说话人辨认实验
  • 5.7 本章小结
  • 第6章 基于语句的说话人支持向量机模型
  • 6.1 基于语句的说话人模型
  • 6.1.1 Fisher核
  • 6.1.2 GLDS核
  • 6.1.3 DTAK核(Pair HMM核)
  • 6.1.4 概率距离核
  • 6.1.5 超向量核
  • 6.2 一类新的基于偏差的映射函数
  • 6.3 基于VQ模型的说话人支持向量机模型
  • 6.3.1 矢量量化模型
  • 6.3.2 YOHO库实验结果与分析
  • 6.4 基于GMM模型的说话人支持向量机模型
  • 6.4.1 高斯混合模型
  • 6.4.2 GMM/SVM模型
  • 6.4.3 YOHO库实验结果与分析
  • 6.4.4 NIST2001库实验
  • 6.5 本章小结
  • 第7章 背景模型与支持向量机
  • 7.1 Anchor模型
  • 7.2 通用背景模型(UBM)
  • 7.3 UBM/SVM模型
  • 7.3.1 模型的建立
  • 7.3.2 实验结果与分析
  • 7.3.3 基于分布中心的映射模型
  • 7.3.4 两种映射方式的组合
  • 7.3.5 多类分类与概率输出实验
  • 7.4 UBM-MAP/SVM模型
  • 7.5 UBM-MAP/SVM模型在2001NIST库实验
  • 7.6 本章小结
  • 第8章 总结与展望
  • 参考文献
  • 攻读学位期间论文发表情况
  • 致谢
  • 相关论文文献

    • [1].基于说话人的音频分割与聚类[J]. 心智与计算 2010(02)
    • [2].基于变分贝叶斯改进的说话人聚类算法[J]. 数据采集与处理 2017(01)
    • [3].基于说话人辨识的自上而下听觉显著性注意模型[J]. 计算机系统应用 2017(07)
    • [4].说话人用意的认知加工机制:基于误解分析的证据[J]. 外语教学 2016(04)
    • [5].“权威度”视角下终助词「ね」的附加考察[J]. 散文百家(理论) 2020(09)
    • [6].润泽有效的课堂,从引导学生学会倾听开始[J]. 快乐阅读 2016(24)
    • [7].那些有故事的“说话人”[J]. 长江丛刊 2017(01)
    • [8].汉日位移动词比较研究[J]. 唐山文学 2017(02)
    • [9].简约而不简单的英语实用口语[J]. 初中生辅导 2016(36)
    • [10].临时性词汇及其语用功能探析[J]. 青年文学家 2017(09)
    • [11].说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J]. 外语学刊 2013(06)
    • [12].论词层级上说话人意义的形成因素[J]. 外语教学 2013(06)
    • [13].基于卷积长短期记忆网络的说话人辨识[J]. 信息通信 2020(08)
    • [14].说话人聚类的初始类生成方法[J]. 计算机工程与应用 2017(03)
    • [15].说话人视角下“来”的参照点问题再认识[J]. 语言教学与研究 2017(02)
    • [16].基于改进的深度神经网络的说话人辨认研究[J]. 电子器件 2017(05)
    • [17].基于语速差异的新闻发布会中首要说话人检测[J]. 计算机工程与应用 2015(04)
    • [18].一种多说话人角色聚类方法[J]. 华南理工大学学报(自然科学版) 2015(01)
    • [19].基于深层说话人矢量的说话人检索[J]. 华中科技大学学报(自然科学版) 2015(07)
    • [20].论说话人交际策略选择的影响因素[J]. 青年文学家 2014(27)
    • [21].汉语语音合成中说话人自适应的时长优化[J]. 清华大学学报(自然科学版) 2013(11)
    • [22].基于话者无关模型的说话人转换方法[J]. 模式识别与人工智能 2013(03)
    • [23].基于辨别性深度信念网络的说话人分割[J]. 清华大学学报(自然科学版) 2013(06)
    • [24].说话人分割聚类研究进展[J]. 信号处理 2013(09)
    • [25].新闻故事中的关键说话人发现方法[J]. 计算机工程与设计 2012(06)
    • [26].一种基于性别的说话人索引算法[J]. 计算机工程与科学 2012(06)
    • [27].基于NIST评测的说话人分类及定位技术研究[J]. 电子与信息学报 2011(05)
    • [28].说话人意义及其结构的研究维度——语言主观意义研究(一)[J]. 外语教学 2011(05)
    • [29].反讽话语说话人的意向及其常规推理[J]. 河北理工大学学报(社会科学版) 2010(02)
    • [30].用于说话人辨识的评分规整[J]. 计算机工程与应用 2010(12)

    标签:;  ;  ;  ;  ;  

    支持向量机在说话人识别中的应用研究
    下载Doc文档

    猜你喜欢