电话信道下语言辨识技术研究

论文题目: 电话信道下语言辨识技术研究

论文类型: 博士论文

论文专业: 军事情报学

作者: 屈丹

导师: 王炳锡

关键词: 语言辨识,最小分类误差准则,最大互信息准则,区分性特征提取,决策级融合,说话人聚类,超顺磁性聚类算法

文献来源: 中国人民解放军信息工程大学

发表年度: 2005

论文摘要: 语言辨识(又称语种识别)技术是语音识别技术的一个重要方向,具有广泛的应用前景。语言辨识系统主要可分为三个部分,即特征提取、模型建立和判决规则。本文以OGI电话语料库为基础,对电话信道说话人无关的语言辨识技术和方法进行了研究,在特征提取、模型建立和前后端处理等方面提出了一些创新的见解,并应用到语言辨识系统。在模型建立方面,本文主要研究了基于统计学习理论的模型方法,提出了高斯混合二元—全局背景二元模型(GMBM-UBBM),它是高斯混合—全局背景模型(GMM-UBM)的扩展模型。本文实现了基于GMM-UBM模型和GMBM-UBBM模型的语言辨识系统,新的二元语言辨识模型GMBM-UBBM模型保留了GMM-UBM模型的语言辨识性能,引入了GMBM模型二元时序信息的优点,通过两种模型的结合,解决了原始GMM-UBM模型中前后矢量统计独立的问题,新模型既保留了GMM-UBM和GMBM优点,也弥补了各自的不足。在训练准则上,本文研究了GMM模型的区分性训练算法,分析了目前两种主要的区分训练准则——最大互信息准则(MMI)和最小分类误差准则(MCE),提出并构建了分别基于这两种准则的语言辨识系统。这两种算法都是以类间信息来改善模型间的区分性,其实现均采用了广义概率下降法。本文首次将区分性训练算法引入到语言辨识领域,因此详细给出了两种算法的理论分析和实现过程,并通过大量实验证明,区分训练算法可以较好地改善语言辨识系统的识别率。在特征提取模块,本文将一种新的基于GMM模型区分性训练算法的特征提取方法应用到语言辨识系统。该方法将区分性的训练机制引入到特征提取过程,根据最小分类误差准则,通过调整MFCC的滤波器组参数获得新的特征。实验结果表明,基于新特征的语言辨识系统的性能优于基于MFCC参数的系统性能,提高了系统的语言辨识率。在后端处理模块中,多分类器决策级融合作为提高分类器性能的一种手段,被越来越多的系统采用。本文从两个方面对决策级融合进行研究,其一是对四种融合方式,即等加权方式、对数等加权方式、普通加权方式和多分类器竞争方式进行研究,其二是最佳线性融合方式研究,并在CFM、MSE和CE准则的基础上,提出了一种新的融合准则,即MCE融合准则。实验表明,新提出的MCE准则获得了和CFM、MSE和CE准则相类似的性能。在前端处理模块,本文将一种全新的物理学思想——超顺磁性聚类算法,引入到说话人聚类领域。超顺磁性聚类算法将聚类问题阐述为一个非均匀Potts模型的平衡性质的测量问题,即在某个温度范围内,数据处于超顺磁性相位,然后利用数据点之间的相

论文目录:

摘要

ABSTRACT

第一章绪论

1.1 语言辨识的基本概念

1.2 语言辨识的发展和回顾

1.3 语言辨识的原理

1.4 论文的主要内容

第二章 GMM-UBM模型的二元时序扩展模型(GMBM-UBBM)

2.1 高斯混合模型(GMM)

2.1.1 高斯混合模型的定义

2.1.2 参数调整算法-EM算法

2.1.3 联合分布

2.2 基于GMM-UBM模型的语言辨识系统

2.2.1 全局背景模型UBM

2.2.2 每种语言模型的获得

2.2.3 对数似然比的计算

2.3 GMM-UBM模型的二元时序扩展模型GMBM-UBBM

2.3.1 问题的提出

2.3.2 GMBM模型

2.3.3 GMBM-UBBM模型

2.4 实验和结果

2.4.1 实验设置

2.4.2 GMM-UBM模型的语言辨识实验

2.4.3 GMBM-UBBM模型的语言辨识实验

2.5 小结

第三章 GMM模型的区分性训练算法

3.1 引言

3.2 贝叶斯分类器

3.3 模式分类器设计的最佳准则

3.3.1 极大似然估计(Maximal Likelihood Estimation，MLE)准则

3.3.2 最大互信息(Maximum Mutual Information，MMI)准则

3.3.3 最小分类误差(Minimum Classification Error，MCE)准则

3.4 MMI准则和MCE准则的具体实现

3.4.1 基于MMI准则区分性训练算法的语言辨识

3.4.2 基于MCE准则区分性训练算法的语言辨识

3.5 实验和结果

3.5.1 MCE准则的区分性语言辨识系统实验

3.5.2 MMI准则的区分性语言辨识系统实验

3.5.3 两种准则的语言辨识性能的比较

3.6 小结

第四章基于GMM区分性训练算法的特征提取

4.1 问题的提出

4.2 基于GMM区分性训练算法的特征提取的具体实现

4.2.1 MFCC参数的数学表示

4.2.2 区分性特征提取的实现

4.2.3 高斯滤波器组初值设定

4.3 实验和结果

4.3.1 实验设置

4.3.2 语言辨识实验

4.4 小结

第五章系统后端处理: 多分类器决策融合

5.1 融合层次分类

5.2 融合方式

5.2.1 线性组合方式

5.2.2 多分类器竞争方式

5.3 语言辨识系统的决策级融合

5.3.1 融合方式选择

5.3.2 参数选择

5.3.3 实验设置

5.3.4 决策级融合实验

5.4 融合方式分析

5.4.1 分类器选择

5.4.2 计算量的讨论

5.5 小结

第六章系统前端处理: 超顺磁性聚类算法

6.1 说话人聚类

6.1.1 相似性测度

6.1.2 聚类算法

6.2 超顺磁性聚类算法

6.2.1 Potts模型

6.2.2 Potts模型的Monte Carlo模拟: Swendsen-Wang算法

6.2.3 数据聚类: 算法的具体描述

6.3 聚类实验

6.3.1 说话人聚类

6.3.2 说话人识别

6.3.3 单个说话人

6.4 小结

第七章语言辨识系统的实验

7.1 语言辨识系统构成

7.2 其它语言的语言辨识实验

7.3 小结

第八章总结与展望

8.1 全文总结

8.2 进一步研究的展望

参考文献

攻读博士学位期间发表的论文目录

致谢

附录 A

附录 B

发布时间: 2006-02-20

参考文献

[1].麦克风网络中基于分布式卡尔曼滤波的说话人跟踪方法研究[D]. 田野.大连理工大学2018
[2].说话人转换建模方法研究[D]. 陈凌辉.中国科学技术大学2013
[3].说话人信息分析及其在多媒体检索中的应用研究[D]. 杨继臣.华南理工大学2010
[4].说话人转换方法的研究[D]. 吕声.华南理工大学2004
[5].基于激励源及其韵律特征的源—目标说话人声音转换研究[D]. 孙俊.中国科学技术大学2006
[6].语音识别中的说话人自适应研究[D]. 王坚.北京邮电大学2007
[7].音视频联合说话人定位与跟踪方法研究[D]. 金乃高.大连理工大学2008
[8].说话人辨认中的特征变换和鲁棒性技术研究[D]. 徐利敏.南京理工大学2008
[9].基于语音频率特性抑制音素影响的说话人特征提取[D]. 玄成君.天津大学2014
[10].麦克风网络中基于分布式粒子滤波的说话人跟踪方法研究[D]. 张巧灵.大连理工大学2016

电话信道下语言辨识技术研究

猜你喜欢