文本无关说话人识别系统研究

文本无关说话人识别系统研究

论文摘要

说话人识别技术属于生物认证技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数来自动识别说话人身份的技术。根据说话的内容,可以分为文本相关和无关两个方面。由于文本无关具有更加灵活与适用面广的特点,因此本文选文本无关说话人识别为主要研究课题。在文本无关说话人识别中,GMM将说话人识别问题转换成对说话人语音数据分布的估计问题,从而将复杂的语音训练、匹配的问题分解为模型参数的训练,以及概率的计算等子问题,解决了说话人识别任务中的很多难题。并且由于GMM具有简单、灵活、有效的特点以及较好的鲁棒性,迅速成为与文本无关的说话人识别中的主流技术。在系统构建方面,本文利用VC++实现了一个完整的说话人识别系统,包括前期的语音处理,特征提取以及后期的模型训练,识别。实现了说话人识别的两大功能:说话人辨认和说话人确认。在前期语音处理和特征提取方面,使用了Mel倒谱系数(MFCC)作为特征参数,在说话人模型方法,采用了高斯混合模型,它使用不同高斯密度的叠加来反映语音的声纹特征。本文的工作主要有以下几个方面:1.研究了GMM性能与训练数据集和测试数据集的依赖关系,特别是GMM阶数与训练数据集的关系。验证了在一定的训练集下,GMM阶数达到一定时,模型性能就会达到最优,继续增加GMM阶数将会导致模型性能下降。2.分析比较高斯混模型的训练方法包括:区别性训练方法和传统最大似然估计方法,并通过实验验证了区别性训练方法能够有效地提高说话人识别性能。3.本文提出一种新的方法,通过聚类优化GMM,有效地减少GMM高斯分量的数目。通过实验验证该算法能够在不明显降低系统识别率的情况下,有效地提高说话人识别的速度。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.1.1 研究的现实意义
  • 1.1.2 主要的应用领域
  • 1.2 研究历史与现状
  • 1.3 热点和难点
  • 1.3.1 说话人识别热点
  • 1.3.2 说话人识别难点
  • 1.4 论文的内容安排
  • 第二章 说话人识别技术概述
  • 2.1 基本原理
  • 2.2 基本类型
  • 2.3 常用识别方法
  • 2.3.1 模板匹配法
  • 2.3.2 矢量量化方法
  • 2.3.3 隐马尔可夫模型方法
  • 2.3.4 高斯混合模型方法
  • 2.3.5 人工神经网络方法
  • 2.3.6 支持向量机
  • 2.4 说话人识别性能评价指标
  • 2.4.1 说话人辨认系统的评价
  • 2.4.2 说话人确认系统的评价
  • 第三章 语音信号处理
  • 3.1 语音信号前期处理
  • 3.1.1 采样与量化
  • 3.1.2 预加重
  • 3.1.3 端点检测
  • 3.1.4 分帧
  • 3.1.5 加窗
  • 3.2 基音周期
  • 3.3 MFCC参数的提取
  • 3.3.1 听觉系统的生理机制
  • 3.3.2 Mel频率简介
  • 3.3.3 美尔倒谱系数MFCC及其提取算法
  • 3.3.4 说话人识别系统中语音特征的选取与评价
  • 第四章 高斯混合模型在说话人识别中的应用
  • 4.1 高斯混合模型简介
  • 4.2 高斯混合模型的参数估计
  • 4.2.1 最大似然估计方法
  • 4.2.2 区别性训练方法
  • 4.3 GMM模型在说话人识别中的具体应用
  • 4.3.1 GMM在说话人辨认中的应用
  • 4.3.2 GMM在说话人确认中的应用
  • 第五章 系统实现与实验结果
  • 5.1 实验平台
  • 5.1.1 硬件平台
  • 5.1.2 软件平台
  • 5.1.3 实验语音库
  • 5.2 说话人辨认系统
  • 5.2.1 高斯混合度对识别率影响
  • 5.2.2 训练集大小对识别率的影响
  • 5.2.3 测试语音长度对识别率的影响
  • 5.2.4 区别性训练方法
  • 5.2.5 基于聚类优化GMM提高识别速度的方法
  • 5.3 说话人确认系统
  • 5.3.1 区别性训练方法
  • 5.3.2 基于聚类优化GMM提高识别速度的方法
  • 第六章 总结与展望
  • 参考文献
  • 攻读硕士学位期间发表论文
  • 致谢
  • 相关论文文献

    • [1].基于说话人的音频分割与聚类[J]. 心智与计算 2010(02)
    • [2].基于变分贝叶斯改进的说话人聚类算法[J]. 数据采集与处理 2017(01)
    • [3].基于说话人辨识的自上而下听觉显著性注意模型[J]. 计算机系统应用 2017(07)
    • [4].说话人用意的认知加工机制:基于误解分析的证据[J]. 外语教学 2016(04)
    • [5].“权威度”视角下终助词「ね」的附加考察[J]. 散文百家(理论) 2020(09)
    • [6].润泽有效的课堂,从引导学生学会倾听开始[J]. 快乐阅读 2016(24)
    • [7].那些有故事的“说话人”[J]. 长江丛刊 2017(01)
    • [8].汉日位移动词比较研究[J]. 唐山文学 2017(02)
    • [9].简约而不简单的英语实用口语[J]. 初中生辅导 2016(36)
    • [10].临时性词汇及其语用功能探析[J]. 青年文学家 2017(09)
    • [11].说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J]. 外语学刊 2013(06)
    • [12].论词层级上说话人意义的形成因素[J]. 外语教学 2013(06)
    • [13].基于卷积长短期记忆网络的说话人辨识[J]. 信息通信 2020(08)
    • [14].说话人聚类的初始类生成方法[J]. 计算机工程与应用 2017(03)
    • [15].说话人视角下“来”的参照点问题再认识[J]. 语言教学与研究 2017(02)
    • [16].基于改进的深度神经网络的说话人辨认研究[J]. 电子器件 2017(05)
    • [17].基于语速差异的新闻发布会中首要说话人检测[J]. 计算机工程与应用 2015(04)
    • [18].一种多说话人角色聚类方法[J]. 华南理工大学学报(自然科学版) 2015(01)
    • [19].基于深层说话人矢量的说话人检索[J]. 华中科技大学学报(自然科学版) 2015(07)
    • [20].论说话人交际策略选择的影响因素[J]. 青年文学家 2014(27)
    • [21].汉语语音合成中说话人自适应的时长优化[J]. 清华大学学报(自然科学版) 2013(11)
    • [22].基于话者无关模型的说话人转换方法[J]. 模式识别与人工智能 2013(03)
    • [23].基于辨别性深度信念网络的说话人分割[J]. 清华大学学报(自然科学版) 2013(06)
    • [24].说话人分割聚类研究进展[J]. 信号处理 2013(09)
    • [25].新闻故事中的关键说话人发现方法[J]. 计算机工程与设计 2012(06)
    • [26].一种基于性别的说话人索引算法[J]. 计算机工程与科学 2012(06)
    • [27].基于NIST评测的说话人分类及定位技术研究[J]. 电子与信息学报 2011(05)
    • [28].说话人意义及其结构的研究维度——语言主观意义研究(一)[J]. 外语教学 2011(05)
    • [29].反讽话语说话人的意向及其常规推理[J]. 河北理工大学学报(社会科学版) 2010(02)
    • [30].用于说话人辨识的评分规整[J]. 计算机工程与应用 2010(12)

    标签:;  

    文本无关说话人识别系统研究
    下载Doc文档

    猜你喜欢