说话人辨认中的特征参数提取和鲁棒性技术研究

论文摘要

语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。语音识别是研究使机器能准确地听出人的语音内容的问题,其目的是方便人与机器的交流。说话人识别技术是语音识别的一种特殊形式,其目的不是识别说话人讲的内容,而是识别说话人是谁。说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的日常生活带来很大的便利。但是,随着说话人识别技术实用化的不断深入,不同应用领域对该技术的要求越来越高。一方面,说话人发音的多变性,要求提取适合说话人识别的特征以保证系统的性能；另一方面,噪声环境、训练与测试数据的时长以及通信信道的失真等问题都严重影响到说话人识别系统在实际应用中的性能。本论文针对文本无关的说话人辨认任务,在说话人个性特征提取和噪声鲁棒性技术两个方面进行了研究,主要内容包括：1.提出基于特征变换和模糊最小二乘支持向量机的辨认算法。针对最小二乘支持向量机模型在语音数据大样本输入下的局限性,一方面对传统的梅尔倒谱特征MFCC进行基于高斯混合模型的特征变换,解决训练最小二乘支持向量机的过程中需要求解的线性方程组的变量数目与特征数量紧密相关的问题；另一方面,通过引入模糊隶属度函数,处理了最小二乘支持向量机从二分类扩展到说话人辨认的多分类时存在的不可分数据问题。高斯混合模型作为一种经典的生成式模型,不但能有效减少数据量,起到压缩数据的作用,而且由于聚类变换后的结果是高斯混合模型的均值矢量集,能够很好地代表说话人的特征,起到突出说话人信息的作用。基于特征变换和模糊最小二乘支持向量机的辨认算法结合了高斯混合模型在拟合数据方面的优势和最小二乘支持向量机在分类辨别方面的优势,从而改善系统系统的性能。2.提出基于高斯混合模型的感知特征补偿变换的抗噪声算法。从人类听觉感知特性出发,基于感知线性预测模型从不同层次模拟了人耳的听觉特性,从语音的频谱细节考虑,去除了会引起说话人信息平滑的临界带频谱分析,提取改进的感知对数面积比系数MPLAR作为说话人特征,具有良好的可分性；并在此基础上,根据说话人识别的声学特性,从匹配得分的整体考虑,对模型输出的似然得分引入非线性变换,拉大目标模型与非目标模型的得分比,拉近同一模型各帧得分值,使得各模型的得分值不仅与当前时刻的似然概率有关,还与之前的K个时刻的似然概率有关,解决了MPLAR在不同类型噪声条件下的抗噪性能问题。基于感知特征和模型补偿的说话人辨认算法不仅提供了可分性更好的特征,并且在模型匹配阶段从整体得分的统计特性出发,得到稳定的模型得分,增强了系统在噪声环境下的识别能力。3.提出基于自适应频率规整的鲁棒性辨认算法。经典的梅尔倒谱特征和感知线性预测特征从人类的听觉感知机理出发,模拟了人类听觉系统对声音频率的感知特性,改进了说话人的识别性能,但是这种处理方式并没有对语义特征和说话人个性特征区别对待,而是在特征提取阶段笼统地降低了高频信息的比重。自适应频率规整算法是基于说话人信息在不同频带呈不均匀分布的原理,从语音生成的生理学角度分析人类在发音过程中的结构变化,从中获取携带说话人信息的生理特征,进而从频谱分析的层次对不同频带对说话人信息的贡献进行量化,指导设计了与Mel频率尺度不同的自适应频率尺度变换,在说话人信息贡献大的区域分配的滤波器个数增多,带宽变小,频率分辨率提高,而贡献小的区域分配的滤波器个数减少,带宽变大,频率分辨率降低,从而进行自适应的频谱滤波,提取区分性特征DFCC。并且针对应用到实际使用环境时存在的训练语音与测试语音失配的问题,对语音频谱进行逐帧逐频率点的预增强处理,去除噪声的干扰,进一步提高系统的鲁棒性。4.提出基于汉语元音映射的说话人辨认方法。该方法从汉语语音的特点出发,对基于汉语的说话人识别进行研究。由于汉语具有相对稳定的音节结构,并且其中的元音部分占据了主要的能量和时长,基于此,从汉语语音的特点出发,对汉语拼音的结构、发音特点进行分析,并且通过元音频谱对比、音素滑动分析、韵母分解实验和共振峰分析等,从短时帧角度将韵母中的元音部分分解为单元音音素的组合,结合大量语音学知识构建了汉语元音映射表,通过汉语元音映射,能够有效地分离语音信号中的语义信息和话者身份信息,将文本无关的说话人识别问题转化为与有限个单元音音素有关的识别问题,并由此衍生出新的说话人建模方法以及新的识别框架,在提高识别率的同时降低对训练和测试数据时长的依赖。在新的识别框架下,提出了一种基于仿生模式识别的说话人辨认算法,在训练阶段利用改进的最近邻覆盖算法为每个单元音音素建立有效的覆盖；在识别阶段根据待测元音帧是否落入对应覆盖区域进行判别,该算法在开集测试条件下对冒名者具有较好的分辨能力。

论文目录

摘要

Abstract

第一章绪论

1.1 引言

1.2 研究背景与意义

1.3 说话人识别的发展概况及现状

1.4 说话人识别系统概述

1.4.1 说话人识别的分类和基本组成

1.4.2 说话人识别的特征提取

1.4.3 说话人识别的主要方法

1.4.4 说话人识别系统的性能评价

1.5 研究现状和难点

1.5.1 说话人特征的提取

1.5.2 鲁棒性说话人识别技术

1.6 论文主要研究内容与结构安排

1.6.1 主要研究内容

1.6.2 论文的结构安排

第二章基于特征变换和模糊LS-SVM的说话人辨认

2.1 引言

2.2 基本理论概述

2.2.1 高斯混合模型原理

2.2.2 Mel频率倒谱参数特征

2.2.3 最小二乘支持向量机

2.3 基于特征变换和模糊LS-SVM的说话人辨认

2.3.1 基于高斯混合模型的特征变换

2.3.2 模糊隶属度函数

2.4 说话人辨认实验

2.4.1 实验语音库

2.4.2 特征变换类数M对识别性能的影响

2.4.3 不同的变换方法及其模糊隶属度对识别性能的影响

2.4.4 与传统识别方法的性能比较

2.5 结论

第三章基于感知特征和模型补偿的鲁棒性说话人辨认

3.1 引言

3.2 感知对数面积比系数

3.2.1 线性预测模型

3.2.2 人耳感知特性

3.2.3 感知线性预测模型

3.2.4 感知对数面积比系数的提取

3.3 基于感知特征和模型补偿的说话人辨认算法

3.3.1 对帧似然概率的归一化补偿变换

3.3.2 基于感知特征和模型补偿的算法的提出

3.4 鲁棒说话人辨认实验

3.4.1 预处理和特征提取

3.4.2 高斯混合模型的建立与识别

3.5 实验与结果分析

3.5.1 特征分量的F比鉴别分析

3.5.2 噪声环境下基于高斯混合模型的辨认性能

3.5.3 模型补偿变换参数的选择

3.5.4 噪声环境下基于模型补偿的辨认性能

3.6 结论

第四章基于自适应频率规整的鲁棒性说话人辨认

4.1 引言

4.2 语音发音系统原理

4.3 说话人个性特征的提取

4.4 自适应频率规整与特征提取

4.4.1 频带鉴别性分析

4.4.2 基于自适应频率规整的非均匀子带分布

4.4.3 DFCC参数的提取

4.5 噪声环境下语音频谱的增强

4.5.1 语音/非语音检测

4.5.2 噪声谱估计

4.5.3 先验信噪比的最优估计

4.5.4 干净语音频谱的估计

4.6 鲁棒说话人辨认实验

4.6.1 不同语音文件的频带鉴别性分析

4.6.2 干净语音环境下DFCC特征在不同测试文件的识别性能

4.6.3 噪声环境下DFCC特征的抗噪性能测试

4.7 结论

第五章基于汉语元音映射的说话人辨认

5.1 引言

5.2 汉语语音的基本特性

5.2.1 汉语语音的特点

5.2.2 声母和韵母

5.2.3 汉语的音节结构

5.3 汉语元音映射的提出

5.3.1 汉语元音频谱的对比

5.3.2 复韵母中单元音音素的滑动分析

5.3.3 常用复韵母的分解实验

5.3.4 二合元音共振峰分析

5.3.5 韵母—元音分解的识别性能实验

5.3.6 基于汉语元音映射的说话人识别框架

5.4 基于汉语元音映射和仿生模式识别的说话人辨认

5.4.1 基于频域能量分布分析的元音帧提取

5.4.2 仿生模式识别理论

5.4.3 基于仿生模式识别的说话人识别方法

5.4.4 改进的最近邻覆盖算法

5.5 说话人辨认实验

5.5.1 辨认算法主要步骤

5.5.2 实验结果与分析

5.6 结论

第六章总结与展望

6.1 论文工作总结

6.2 研究展望

致谢

参考文献

附录

说话人辨认中的特征参数提取和鲁棒性技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢