说话人辨认中的特征参数提取和鲁棒性技术研究

说话人辨认中的特征参数提取和鲁棒性技术研究

论文摘要

语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。语音识别是研究使机器能准确地听出人的语音内容的问题,其目的是方便人与机器的交流。说话人识别技术是语音识别的一种特殊形式,其目的不是识别说话人讲的内容,而是识别说话人是谁。说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的日常生活带来很大的便利。但是,随着说话人识别技术实用化的不断深入,不同应用领域对该技术的要求越来越高。一方面,说话人发音的多变性,要求提取适合说话人识别的特征以保证系统的性能;另一方面,噪声环境、训练与测试数据的时长以及通信信道的失真等问题都严重影响到说话人识别系统在实际应用中的性能。本论文针对文本无关的说话人辨认任务,在说话人个性特征提取和噪声鲁棒性技术两个方面进行了研究,主要内容包括:1.提出基于特征变换和模糊最小二乘支持向量机的辨认算法。针对最小二乘支持向量机模型在语音数据大样本输入下的局限性,一方面对传统的梅尔倒谱特征MFCC进行基于高斯混合模型的特征变换,解决训练最小二乘支持向量机的过程中需要求解的线性方程组的变量数目与特征数量紧密相关的问题;另一方面,通过引入模糊隶属度函数,处理了最小二乘支持向量机从二分类扩展到说话人辨认的多分类时存在的不可分数据问题。高斯混合模型作为一种经典的生成式模型,不但能有效减少数据量,起到压缩数据的作用,而且由于聚类变换后的结果是高斯混合模型的均值矢量集,能够很好地代表说话人的特征,起到突出说话人信息的作用。基于特征变换和模糊最小二乘支持向量机的辨认算法结合了高斯混合模型在拟合数据方面的优势和最小二乘支持向量机在分类辨别方面的优势,从而改善系统系统的性能。2.提出基于高斯混合模型的感知特征补偿变换的抗噪声算法。从人类听觉感知特性出发,基于感知线性预测模型从不同层次模拟了人耳的听觉特性,从语音的频谱细节考虑,去除了会引起说话人信息平滑的临界带频谱分析,提取改进的感知对数面积比系数MPLAR作为说话人特征,具有良好的可分性;并在此基础上,根据说话人识别的声学特性,从匹配得分的整体考虑,对模型输出的似然得分引入非线性变换,拉大目标模型与非目标模型的得分比,拉近同一模型各帧得分值,使得各模型的得分值不仅与当前时刻的似然概率有关,还与之前的K个时刻的似然概率有关,解决了MPLAR在不同类型噪声条件下的抗噪性能问题。基于感知特征和模型补偿的说话人辨认算法不仅提供了可分性更好的特征,并且在模型匹配阶段从整体得分的统计特性出发,得到稳定的模型得分,增强了系统在噪声环境下的识别能力。3.提出基于自适应频率规整的鲁棒性辨认算法。经典的梅尔倒谱特征和感知线性预测特征从人类的听觉感知机理出发,模拟了人类听觉系统对声音频率的感知特性,改进了说话人的识别性能,但是这种处理方式并没有对语义特征和说话人个性特征区别对待,而是在特征提取阶段笼统地降低了高频信息的比重。自适应频率规整算法是基于说话人信息在不同频带呈不均匀分布的原理,从语音生成的生理学角度分析人类在发音过程中的结构变化,从中获取携带说话人信息的生理特征,进而从频谱分析的层次对不同频带对说话人信息的贡献进行量化,指导设计了与Mel频率尺度不同的自适应频率尺度变换,在说话人信息贡献大的区域分配的滤波器个数增多,带宽变小,频率分辨率提高,而贡献小的区域分配的滤波器个数减少,带宽变大,频率分辨率降低,从而进行自适应的频谱滤波,提取区分性特征DFCC。并且针对应用到实际使用环境时存在的训练语音与测试语音失配的问题,对语音频谱进行逐帧逐频率点的预增强处理,去除噪声的干扰,进一步提高系统的鲁棒性。4.提出基于汉语元音映射的说话人辨认方法。该方法从汉语语音的特点出发,对基于汉语的说话人识别进行研究。由于汉语具有相对稳定的音节结构,并且其中的元音部分占据了主要的能量和时长,基于此,从汉语语音的特点出发,对汉语拼音的结构、发音特点进行分析,并且通过元音频谱对比、音素滑动分析、韵母分解实验和共振峰分析等,从短时帧角度将韵母中的元音部分分解为单元音音素的组合,结合大量语音学知识构建了汉语元音映射表,通过汉语元音映射,能够有效地分离语音信号中的语义信息和话者身份信息,将文本无关的说话人识别问题转化为与有限个单元音音素有关的识别问题,并由此衍生出新的说话人建模方法以及新的识别框架,在提高识别率的同时降低对训练和测试数据时长的依赖。在新的识别框架下,提出了一种基于仿生模式识别的说话人辨认算法,在训练阶段利用改进的最近邻覆盖算法为每个单元音音素建立有效的覆盖;在识别阶段根据待测元音帧是否落入对应覆盖区域进行判别,该算法在开集测试条件下对冒名者具有较好的分辨能力。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 引言
  • 1.2 研究背景与意义
  • 1.3 说话人识别的发展概况及现状
  • 1.4 说话人识别系统概述
  • 1.4.1 说话人识别的分类和基本组成
  • 1.4.2 说话人识别的特征提取
  • 1.4.3 说话人识别的主要方法
  • 1.4.4 说话人识别系统的性能评价
  • 1.5 研究现状和难点
  • 1.5.1 说话人特征的提取
  • 1.5.2 鲁棒性说话人识别技术
  • 1.6 论文主要研究内容与结构安排
  • 1.6.1 主要研究内容
  • 1.6.2 论文的结构安排
  • 第二章 基于特征变换和模糊LS-SVM的说话人辨认
  • 2.1 引言
  • 2.2 基本理论概述
  • 2.2.1 高斯混合模型原理
  • 2.2.2 Mel频率倒谱参数特征
  • 2.2.3 最小二乘支持向量机
  • 2.3 基于特征变换和模糊LS-SVM的说话人辨认
  • 2.3.1 基于高斯混合模型的特征变换
  • 2.3.2 模糊隶属度函数
  • 2.4 说话人辨认实验
  • 2.4.1 实验语音库
  • 2.4.2 特征变换类数M对识别性能的影响
  • 2.4.3 不同的变换方法及其模糊隶属度对识别性能的影响
  • 2.4.4 与传统识别方法的性能比较
  • 2.5 结论
  • 第三章 基于感知特征和模型补偿的鲁棒性说话人辨认
  • 3.1 引言
  • 3.2 感知对数面积比系数
  • 3.2.1 线性预测模型
  • 3.2.2 人耳感知特性
  • 3.2.3 感知线性预测模型
  • 3.2.4 感知对数面积比系数的提取
  • 3.3 基于感知特征和模型补偿的说话人辨认算法
  • 3.3.1 对帧似然概率的归一化补偿变换
  • 3.3.2 基于感知特征和模型补偿的算法的提出
  • 3.4 鲁棒说话人辨认实验
  • 3.4.1 预处理和特征提取
  • 3.4.2 高斯混合模型的建立与识别
  • 3.5 实验与结果分析
  • 3.5.1 特征分量的F比鉴别分析
  • 3.5.2 噪声环境下基于高斯混合模型的辨认性能
  • 3.5.3 模型补偿变换参数的选择
  • 3.5.4 噪声环境下基于模型补偿的辨认性能
  • 3.6 结论
  • 第四章 基于自适应频率规整的鲁棒性说话人辨认
  • 4.1 引言
  • 4.2 语音发音系统原理
  • 4.3 说话人个性特征的提取
  • 4.4 自适应频率规整与特征提取
  • 4.4.1 频带鉴别性分析
  • 4.4.2 基于自适应频率规整的非均匀子带分布
  • 4.4.3 DFCC参数的提取
  • 4.5 噪声环境下语音频谱的增强
  • 4.5.1 语音/非语音检测
  • 4.5.2 噪声谱估计
  • 4.5.3 先验信噪比的最优估计
  • 4.5.4 干净语音频谱的估计
  • 4.6 鲁棒说话人辨认实验
  • 4.6.1 不同语音文件的频带鉴别性分析
  • 4.6.2 干净语音环境下DFCC特征在不同测试文件的识别性能
  • 4.6.3 噪声环境下DFCC特征的抗噪性能测试
  • 4.7 结论
  • 第五章 基于汉语元音映射的说话人辨认
  • 5.1 引言
  • 5.2 汉语语音的基本特性
  • 5.2.1 汉语语音的特点
  • 5.2.2 声母和韵母
  • 5.2.3 汉语的音节结构
  • 5.3 汉语元音映射的提出
  • 5.3.1 汉语元音频谱的对比
  • 5.3.2 复韵母中单元音音素的滑动分析
  • 5.3.3 常用复韵母的分解实验
  • 5.3.4 二合元音共振峰分析
  • 5.3.5 韵母—元音分解的识别性能实验
  • 5.3.6 基于汉语元音映射的说话人识别框架
  • 5.4 基于汉语元音映射和仿生模式识别的说话人辨认
  • 5.4.1 基于频域能量分布分析的元音帧提取
  • 5.4.2 仿生模式识别理论
  • 5.4.3 基于仿生模式识别的说话人识别方法
  • 5.4.4 改进的最近邻覆盖算法
  • 5.5 说话人辨认实验
  • 5.5.1 辨认算法主要步骤
  • 5.5.2 实验结果与分析
  • 5.6 结论
  • 第六章 总结与展望
  • 6.1 论文工作总结
  • 6.2 研究展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].基于说话人的音频分割与聚类[J]. 心智与计算 2010(02)
    • [2].基于变分贝叶斯改进的说话人聚类算法[J]. 数据采集与处理 2017(01)
    • [3].基于说话人辨识的自上而下听觉显著性注意模型[J]. 计算机系统应用 2017(07)
    • [4].说话人用意的认知加工机制:基于误解分析的证据[J]. 外语教学 2016(04)
    • [5].“权威度”视角下终助词「ね」的附加考察[J]. 散文百家(理论) 2020(09)
    • [6].润泽有效的课堂,从引导学生学会倾听开始[J]. 快乐阅读 2016(24)
    • [7].那些有故事的“说话人”[J]. 长江丛刊 2017(01)
    • [8].汉日位移动词比较研究[J]. 唐山文学 2017(02)
    • [9].简约而不简单的英语实用口语[J]. 初中生辅导 2016(36)
    • [10].临时性词汇及其语用功能探析[J]. 青年文学家 2017(09)
    • [11].说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J]. 外语学刊 2013(06)
    • [12].论词层级上说话人意义的形成因素[J]. 外语教学 2013(06)
    • [13].基于卷积长短期记忆网络的说话人辨识[J]. 信息通信 2020(08)
    • [14].说话人聚类的初始类生成方法[J]. 计算机工程与应用 2017(03)
    • [15].说话人视角下“来”的参照点问题再认识[J]. 语言教学与研究 2017(02)
    • [16].基于改进的深度神经网络的说话人辨认研究[J]. 电子器件 2017(05)
    • [17].基于语速差异的新闻发布会中首要说话人检测[J]. 计算机工程与应用 2015(04)
    • [18].一种多说话人角色聚类方法[J]. 华南理工大学学报(自然科学版) 2015(01)
    • [19].基于深层说话人矢量的说话人检索[J]. 华中科技大学学报(自然科学版) 2015(07)
    • [20].论说话人交际策略选择的影响因素[J]. 青年文学家 2014(27)
    • [21].汉语语音合成中说话人自适应的时长优化[J]. 清华大学学报(自然科学版) 2013(11)
    • [22].基于话者无关模型的说话人转换方法[J]. 模式识别与人工智能 2013(03)
    • [23].基于辨别性深度信念网络的说话人分割[J]. 清华大学学报(自然科学版) 2013(06)
    • [24].说话人分割聚类研究进展[J]. 信号处理 2013(09)
    • [25].新闻故事中的关键说话人发现方法[J]. 计算机工程与设计 2012(06)
    • [26].一种基于性别的说话人索引算法[J]. 计算机工程与科学 2012(06)
    • [27].基于NIST评测的说话人分类及定位技术研究[J]. 电子与信息学报 2011(05)
    • [28].说话人意义及其结构的研究维度——语言主观意义研究(一)[J]. 外语教学 2011(05)
    • [29].反讽话语说话人的意向及其常规推理[J]. 河北理工大学学报(社会科学版) 2010(02)
    • [30].用于说话人辨识的评分规整[J]. 计算机工程与应用 2010(12)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    说话人辨认中的特征参数提取和鲁棒性技术研究
    下载Doc文档

    猜你喜欢