对话电话语音的话者确认研究

对话电话语音的话者确认研究

论文摘要

文本无关的话者确认是目前说话人识别中的一个重要研究方向,为此,美国国家标准与技术署从1996年开始组织了说话人识别评测,用于衡量当前说话人识别技术的发展水平。他为每个参赛单位提供了统一的数据,测试平台以及评测规则等,并且设立了许多子任务,用于探索和研究不同语音条件下的研究方法。对话电话语音的说话人确认作为NIST SRE的一个子任务,具有重要的研究意义。本文从基本的单话者话者确认技术入手,介绍了单说话人确认的系统框架并且对其中各个部分予以详细的介绍,随后,根据对话语音话者确认与单话者确认上的异同,从两个方面对识别系统进行了深入的工作。针对对话语音说话人确认与单话者确认的不同点,对话语音话者确认需要将语音先切分聚类,该操作是将对话语音话者确认转化为常规单话者确认的关键,因此,本文详细介绍了目前常用的切分聚类方法,以及其中的不足之处,并且给出了将其合适的应用于确认的一些改进方案。针对对话语音话者确认与单话者确认的共同点,单话者确认系统性能的改进措施也会使得对话语音确认系统的性能相应得到改进,本文借用语音质量测量的概念,引入了新的评分准则,对系统的识别性能有较大程度的提高。本文提出了两种适合于后续确认过程的对初步切分聚类语音的再处理方法,一,提出了二次提纯的方法,由于语音的纯净度是影响识别性能的关键因素之一,对原始语音的切分聚类结果不再追求寻找准确的说话人转化点,而是追求话者语音切分的纯度,将纯净度低的语音部分予以抛弃,只保留纯净度高的部分作为确认系统的输入,从而提高确认系统的性能。二,采用基于融合策略的切分方法,将利用不同的方法切分的结果通过对比,找出判定结果相同的部分,利用此部分语音分别训练两个话者的模型,对判定结果不同的部分重新归类,最终得到准确的两个话者的语音。本文利用语音质量测量的概念,提出了GMM-UBM框架下新的基于语音信号质量的系统评分方法,通过利用辅助信息,对每一条测试语音动态的衡量其与话者模型的适配度(质量值),并利用所得到的该值调整系统的评分,使得系统的识别性能有了较大的改进。本文建立了一个性能稳定的对话电话语音的说话人确认系统,大量实验表明,所建立的系统具有良好的效果和鲁棒性。

论文目录

  • 摘要
  • ABSTRACT
  • 图目录
  • 表目录
  • 缩写词列表
  • 第1章 绪论
  • 1.1 说话人识别概述
  • 1.1.1 什么是说话人识别
  • 1.1.2 说话人识别的发展历史
  • 1.1.3 说话人确认技术的应用
  • 1.1.4 说话人识别的分类
  • 1.2 NIST SRE简介
  • 1.3 对话语音研究概况
  • 1.4 说话人确认系统的评测方法
  • 一 等误识率
  • 二 DET曲线
  • 三 检测代价函数
  • 1.5 本文的研究背景与关键问题
  • 1.5.1 研究背景
  • 1.5.2 关键问题
  • 第2章 语音信号的参数提取
  • 2.1 引言
  • 2.2 语音信号的产生机理
  • 2.2.1 语音生成系统
  • 2.2.2 语音生成模型
  • 2.3 语音信号的特征参数提取
  • 2.3.1 短时谱特征
  • 2.3.1.1 语音信号的倒谱分析
  • 2.3.1.2 线性预测倒谱参数
  • 2.3.1.3 Mel-频率倒谱参数
  • 2.3.2 谱时特征
  • 2.3.3 音源特征
  • 2.3.4 韵律特征
  • 2.4 本章小结
  • 第3章 基于GMM的话者建模方法
  • 3.1 引言
  • 3.2 高斯混合模型
  • 3.2.1 高斯混合模型的表示
  • 3.2.2 高斯混合模型的概率输出
  • 3.2.3 GMM模型的参数估计
  • 3.3 GMM-UBM说话人确认框架
  • 3.3.1 GMM-UBM 框架
  • 3.3.2 GMM-UBM-MAP结构
  • 3.3.3 MAP自适应算法
  • 3.4 实验与结果
  • 3.4.1 实验数据库
  • 3.4.2 实验结果
  • 3.4.2.1 混合度对系统性能的影响
  • 3.4.2.2 GMM-UBM与GMM-UBM-MAP的性能比较
  • 3.4.2.3 训练语音长度对性能的影响
  • 3.5 本章小结
  • 第4章 单话者确认系统
  • 4.1 引言
  • 4.2 参数规整技术
  • 4.2.1 倒谱均值相减
  • 4.2.2 RASTA滤波器
  • 4.2.3 短时高斯化
  • 4.3 实验与结果
  • 4.3.1 实验数据库
  • 4.3.2 实验结果
  • 4.3.2.1 规整技术对系统性能的影响
  • 4.3.2.2 短时音源参数确认性能
  • 4.3.2.3 超音段韵律特征识别性能
  • 4.4 本章小结
  • 第5章 话者的切分与聚类
  • 5.1 引言
  • 5.2 话者的切分技术
  • 5.2.1 基于距离测度的分割算法
  • 5.2.1.1 贝叶斯信息准则
  • 5.2.1.2 KL距离
  • 5.2.1.3 广义似然比
  • 5.2.1.4 交叉似然比
  • 5.2.2 其他的切分技术
  • 5.2.2.1 基于静音的切分技术
  • 5.2.2.2 基于模型的切分技术
  • 5.3 聚类技术
  • 5.3.1 自底向上的聚类方法
  • 5.3.2 自顶向下的聚类方法
  • 5.4 分层聚类切分方法
  • 5.5 距离公式的修正
  • 5.6 切分结果的再处理
  • 5.6.1 维特比算法
  • 5.6.2 二次评分算法
  • 5.6.3 切分结果的组合
  • 5.7 对话电话语音话者确认系统的构建
  • 5.8 实验及结果
  • 5.8.1 实验数据
  • 5.8.2 实验结果
  • 5.8.2.1 分层聚类的结果
  • 5.8.2.2 维特比译码的性能
  • 5.8.2.3 提纯对系统性能的改进
  • 5.8.2.4 采用融合技术的重分割
  • 5.8.2.5 不同实验条件下的识别结果
  • 5.8.2.6 切分聚类方法在实际中的应用
  • 5.9 本章小结
  • 第6章 融合对系统的改进
  • 6.1 引言
  • 6.2 线性融合技术
  • 6.3 语音质量测量的融合方法
  • 6.3.1 语音质量的定义
  • 6.3.2 参数偏离的计算
  • 6.3.3 多维参数的语音质量计算
  • 6.3.4 基于质量的GMM评分的计算
  • 6.3.5 基于质量测量的GMM-UBM确认系统框图
  • 6.4 实验与结果
  • 6.4.1 数据库描述
  • 6.4.2 实验结果
  • 6.4.2.1 线性融合的实验结果
  • 6.4.2.2 质量测量的实验结果
  • 6.4.2.3 语音质量对对话语音确认性能的影响
  • 6.5 本章小结
  • 第7章 总结与展望
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的研究成果
  • 相关论文文献

    • [1].基于翻转梅尔频率倒谱系数的语音变调检测方法[J]. 计算机应用 2019(12)
    • [2].语音助手能力评估研究及趋势分析[J]. 广东通信技术 2019(12)
    • [3].语音伪造与鉴伪的发展与挑战[J]. 信息安全学报 2020(02)
    • [4].广告语中语音隐喻的使用规则研究[J]. 传播力研究 2020(03)
    • [5].阻止语音欺诈的7种方法[J]. 计算机与网络 2020(09)
    • [6].5G初期语音业务方案与优化策略[J]. 广西通信技术 2019(03)
    • [7].在线语音直播发展动因探析[J]. 视听 2020(09)
    • [8].语音欺骗检测方法的研究现状及展望[J]. 数据采集与处理 2020(05)
    • [9].5G语音回落4G解决方案探讨[J]. 移动通信 2019(04)
    • [10].手机智能语音助手的发展与未来[J]. 通讯世界 2019(04)
    • [11].语音营销,是新机遇,还是新泡沫?[J]. 营销界 2019(02)
    • [12].语音在少数民族口传音乐中的作用——以赫哲族为例[J]. 北极光 2019(06)
    • [13].古交语音与中古语音的比较[J]. 汉字文化 2019(13)
    • [14].手机语音助手用户体验现状及发展[J]. 内蒙古煤炭经济 2019(15)
    • [15].语音助手市场增长惊人[J]. 董事会 2019(10)
    • [16].在线语音直播的兴起与发展探析[J]. 新闻研究导刊 2018(07)
    • [17].基于噪声分类和字典选择的语音活动检测[J]. 华中科技大学学报(自然科学版) 2016(12)
    • [18].语音拣选系统在汽车零部件首批仓库拣选业务中的应用[J]. 物流技术 2017(01)
    • [19].一种基于语音活动检测的声源定位方法[J]. 电脑知识与技术 2017(04)
    • [20].互联网时代语音业务发展的思考分析[J]. 中国新通信 2017(08)
    • [21].一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J]. 华东理工大学学报(自然科学版) 2017(04)
    • [22].语音中继主叫号码的限制[J]. 通讯世界 2017(18)
    • [23].在线语音直播开启直播新战场[J]. 新闻战线 2017(21)
    • [24].基于同轴的广电语音业务的实现[J]. 中国有线电视 2016(08)
    • [25].瑜伽语音冥想对大学生心理健康的积极影响[J]. 赤子(上中旬) 2014(15)
    • [26].语音感知和语音产出——二语语音习得研究梳辨[J]. 语文学刊(外语教育教学) 2015(04)
    • [27].国内外语语音能力研究论析[J]. 宿州学院学报 2015(06)
    • [28].关于语音转换实现的研究[J]. 价值工程 2015(29)
    • [29].浅析语音导览系统在博物馆中的应用[J]. 学理论 2015(32)
    • [30].语音反馈的实践改进[J]. 教学月刊小学版(综合) 2020(06)

    标签:;  ;  ;  ;  ;  

    对话电话语音的话者确认研究
    下载Doc文档

    猜你喜欢