复杂信道下的说话人识别技术

复杂信道下的说话人识别技术

论文摘要

计算机科学经过几十年的发展,对人们的生产、生活、工作、娱乐等方面产生了重大影响。随着个人电脑,智能设备,移动操作系统的广泛应用及普及,人们对于计算机的交互体验和操作习惯等方面提出更高的要求。语音交互被认为是一种理想的人机交互方式,并逐渐应用于电信、教育、安全等行业。说话人识别是语音处理技术的一个重要分枝,其基本原理是通过对说话人的语音信息进行分析与建模来“了解”用户的声音特征,从而能够辨认出用户的身份。由于高斯混合模型(GMM)能够很好的对说话人声线特征进行拟合,加之训练与识别的算法复杂度很小,已经成为说话人识别问题的一种主流的解决方案,在过去十几年中得到广泛的研究与应用。Reynolds等人在GMM的基础上发展出高斯混合通用背景模型(GMM_UBM),利用通用背景良好的性质,很好地了解决训练语音数据较少时模型训练不充分的难题。本文的主要研究方向为复杂信道下的鲁棒性说话人识别问题,旨在提高非理想环境下的说话人识别系统的识别性能,以增强系统对于各种环境的适应性。论文从识别系统的三个主要方面——语音特征提取、说话人模型训练和身份相似度计算分别进行研究和方案优劣性讨论,采用了“规避”或“补偿”的思想,以抵消或者削减不同信道和采集设备对说话人语音产生的干扰,增强了说话人识别系统对于不同环境的适应能力。机器人有着广阔的应用前景,面向家庭服务的机器人更是未来千家万户的强烈需求。在本文的最后讨论了一款面向家庭服务的机器人——“睿宝”机器人系统中的说话人识别模块,该模块内嵌于机器语音交互子系统中,在机器人与用户进行语音交互的过程中,对交互对象进行身份辨识和命令合法性确认的工作,很大程度上提高了机器人的安全性和智能性。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 说话人识别技术
  • 1.2 应用领域
  • 1.3 技术分类
  • 1.4 研究现状
  • 1.5 论文工作与组织安排
  • 第二章 说话人识别基础知识
  • 2.1 语言的基本过程
  • 2.2 基本处理过程
  • 2.3 核心关键问题
  • 2.4 评分标准
  • 2.5 小结
  • 第三章 MFCC特征
  • 3.1 梅尔尺度
  • 3.2 MFCC及特征提取
  • 3.3 小结
  • 第四章 基于混合高斯模型的说话人识别
  • 4.1 高斯混合模型
  • 4.2 基于GMM的说话人模型
  • 4.3 基于GMM的说话人识别过程
  • UBM的通用背景模型'>4.4 基于GMMUBM的通用背景模型
  • UBM的说话人模型训练'>4.5 基于GMMUBM的说话人模型训练
  • UBM模型的识别过程'>4.6 基于GMMUBM模型的识别过程
  • 4.7 小结
  • 第五章 复杂信道下说话人识别
  • 5.1 信道的影响
  • 5.2 信道鲁棒算法
  • 5.3 模型域的信道鲁棒算法
  • 5.4 分数域的信道鲁棒算法
  • 5.5 小结
  • 第六章 面向家用机器人的说话人识别系统
  • 6.1 家用机器人中的说话人识别
  • 6.2 系统框架及改进方案
  • 6.3 实验结果
  • 6.4 小结
  • 第七章 总结与展望
  • 攻读硕士学位期间的科研成果
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于说话人的音频分割与聚类[J]. 心智与计算 2010(02)
    • [2].基于变分贝叶斯改进的说话人聚类算法[J]. 数据采集与处理 2017(01)
    • [3].基于说话人辨识的自上而下听觉显著性注意模型[J]. 计算机系统应用 2017(07)
    • [4].说话人用意的认知加工机制:基于误解分析的证据[J]. 外语教学 2016(04)
    • [5].“权威度”视角下终助词「ね」的附加考察[J]. 散文百家(理论) 2020(09)
    • [6].润泽有效的课堂,从引导学生学会倾听开始[J]. 快乐阅读 2016(24)
    • [7].那些有故事的“说话人”[J]. 长江丛刊 2017(01)
    • [8].汉日位移动词比较研究[J]. 唐山文学 2017(02)
    • [9].简约而不简单的英语实用口语[J]. 初中生辅导 2016(36)
    • [10].临时性词汇及其语用功能探析[J]. 青年文学家 2017(09)
    • [11].说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J]. 外语学刊 2013(06)
    • [12].论词层级上说话人意义的形成因素[J]. 外语教学 2013(06)
    • [13].基于卷积长短期记忆网络的说话人辨识[J]. 信息通信 2020(08)
    • [14].说话人聚类的初始类生成方法[J]. 计算机工程与应用 2017(03)
    • [15].说话人视角下“来”的参照点问题再认识[J]. 语言教学与研究 2017(02)
    • [16].基于改进的深度神经网络的说话人辨认研究[J]. 电子器件 2017(05)
    • [17].基于语速差异的新闻发布会中首要说话人检测[J]. 计算机工程与应用 2015(04)
    • [18].一种多说话人角色聚类方法[J]. 华南理工大学学报(自然科学版) 2015(01)
    • [19].基于深层说话人矢量的说话人检索[J]. 华中科技大学学报(自然科学版) 2015(07)
    • [20].论说话人交际策略选择的影响因素[J]. 青年文学家 2014(27)
    • [21].汉语语音合成中说话人自适应的时长优化[J]. 清华大学学报(自然科学版) 2013(11)
    • [22].基于话者无关模型的说话人转换方法[J]. 模式识别与人工智能 2013(03)
    • [23].基于辨别性深度信念网络的说话人分割[J]. 清华大学学报(自然科学版) 2013(06)
    • [24].说话人分割聚类研究进展[J]. 信号处理 2013(09)
    • [25].新闻故事中的关键说话人发现方法[J]. 计算机工程与设计 2012(06)
    • [26].一种基于性别的说话人索引算法[J]. 计算机工程与科学 2012(06)
    • [27].基于NIST评测的说话人分类及定位技术研究[J]. 电子与信息学报 2011(05)
    • [28].说话人意义及其结构的研究维度——语言主观意义研究(一)[J]. 外语教学 2011(05)
    • [29].反讽话语说话人的意向及其常规推理[J]. 河北理工大学学报(社会科学版) 2010(02)
    • [30].用于说话人辨识的评分规整[J]. 计算机工程与应用 2010(12)

    标签:;  ;  ;  ;  ;  

    复杂信道下的说话人识别技术
    下载Doc文档

    猜你喜欢