基于非线性理论和信息融合的说话人识别

基于非线性理论和信息融合的说话人识别

论文题目: 基于非线性理论和信息融合的说话人识别

论文类型: 博士论文

论文专业: 通信与信息系统

作者: 侯丽敏

导师: 王朔中

关键词: 说话人识别,非线性特征,指数,分形维数,信息融合

文献来源: 上海大学

发表年度: 2005

论文摘要: 说话人识别是一种生物特征识别技术,它是指机器通过说话人的语音自动识别出说话人的身份。在信息接入服务安全控制、司法鉴定、金融服务、电子侦听和人机界面智能化等领域这项技术具有良好的应用前景。说话人识别主要经过三个阶段来实现——提取特征、建立说话人模型、判决。特征提取阶段是第一步,也是非常重要的一步。如果不能提取充分反映说话人个性特征的特征量,后两步的优化就很难奏效。现有特征提取方法大都是建立在把语音信号当作短时平稳信号的认识基础上的,这些特征用于说话人识别取得了较好的效果,但是人们在设法进一步提高系统的识别率和鲁棒性时发现了它的局限性。针对这种情况,本文基于当前非线性动力的混沌、分形数学在许多物理现象特别是语音信号处理中的应用,提出采用动力系统模型分析语音信号,抽取混沌、分形特征描述语音信号,并且将这些特征应用于说话人识别,探讨非线性参数区别不同人的声音的有效性,以进一步提高说话人识别的正确识别率。本文首先深入分析语音信号的混沌机理。由自相关函数确定延迟时间,用虚假近邻法确定嵌入维数,据此重构相空间。根据实验数据计算汉语38个音素的最大Lyapunov指数,其数值均为正值,验证了语音信号的混沌性。在此基础上研究非线性动力学在说话人识别中的应用,取得的创新研究成果可归纳如下:(1)基于Kolomogorov熵和广义维数、关联维数之间的联系,利用GP相关算法实现语音信号关联维数的计算,并得到Kolomogorov熵和广义维数的计算方法,使语音信号的各种非线性参数的计算统一起来。(2)提出用广义维数Dq为说话人的特征参数,进行说话人识别。广义维数作为多维矢量比其他研究成果中使用的单一的一维分形维数更详细地描述了语音信号的非线性特性。在与文本无关的实验中,对Dq采用马氏距离,并结合其一次差分和二次差分,明显提高了说话人辨认的正确识别率,表明了广义维数作为说话认识别特征的有效性。还进一步讨论短时帧长度对估计Dq的影响,适当增加帧长使识别率得到提高。与采用传统特征参数的说话人识别进行了对比实验,显示出广义维数能够区分不同的说话人,可与传统参数结合起来共同完成识别任务。

论文目录:

摘要

ABSTRACT

第一章 说话人识别概述

1.1 绪论

1.1.1 说话人识别系统

1.1.2 说话人识别研究意义

1.2 说话人识别研究的方法

1.2.1 常用的识别特征矢量

1.2.2 参考模型和模式匹配方法

1.3 语音信号的非线性研究

1.3.1 语音信号发音过程的非线性性质

1.3.2 国内外研究现状

1.4 主要研究工作与创新

1.5 说话人识别的数据库

第二章 语音信号分析和说话人识别

2.1 语音特征的提取

2.1.1 线性预测系数(LPC)及其倒谱系数(LPCC)

2.1.2 Mel 频率倒谱系数(MFCC)

2.2 基于分形的语音特征

2.3 说话人识别的方法

2.3.1 矢量量化模型

2.3.2 高斯混合模型

第三章 语音信号的混沌性

3.1 混沌的普遍性

3.2 语音空气动力学与分形

3.3 汉语语音信号的相空间重构

3.3.1 延迟时间τ的选取

3.3.2 嵌入维数的确定

3.4 LYAPUNOV 指数和汉语语音信号混沌性的验证

3.4.1 最大Lyapunov 指数的计算

3.4.2 汉语语音混沌性的验证

3.5 本章小结

第四章 汉语语音的分形参数计算和分析

4.1 分形维数

4.1.1 分形维数的定义

4.1.2 语音信号关联维数的计算

4.2 二阶动态熵

4.2.1 二阶动态熵的定义

4.2.2 语音信号的二阶动态熵

4.3 多重分形

4.3.1 多重分形的定义

4.3.2 语音信号的广义维数

4.4 本章小结

第五章 语音信号的广义维数在说话人识别中的应用

5.1 基于广义维数的说话人识别

5.1.1 “与文本有关”的说话人辨认实验和结果

5.1.2 “与文本无关”的讲话者辨认实验和结果

5.2 基于马氏距离说话人辨认

5.2.1 马氏距离

5.2.2 降维的广义维数

5.2.3 识别性能的改进

5.3 基于改变帧长的广义维数的说话人辨认

5.3.1 帧长对广义维数的准确度的影响

5.3.2 改变帧长对说话人识别的影响

5.4 本章小结

第六章 说话人常用特征与非线性特征融合

6.1 信息融合原理

6.1.1 信息融合的分类

6.1.2 多分类器融合的类型

6.1.3 多分类器融合的方法

6.2 基于特征层融合的说话人辨认

6.2.1 构建高维矢量法的融合实现

6.2.2 构建复数矢量法的融合实现

6.3 基于决策层融合的说话人辨认

6.3.1 串联形式的说话人辨认实验及分析

6.3.2 并联形式的说话人辨认实验及分析

6.4 本章小结

第七章 总结和展望

7.1 非线性理论的说话人识别应用

7.2 信息融合的有关问题及解决办法

7.3 非线性理论在说话人识别应用进一步研究的展望

参考文献

攻读博士学位期间公开发表和已录用的论文

攻读博士学位期间完成的科研项目

致谢

发表意见书

博硕士学位论文同意发表声明

发布时间: 2006-12-12

参考文献

  • [1].基于缺失特征的文本无关说话人识别鲁棒性研究[D]. 陆伟.中国科学技术大学2008
  • [2].基于互信息理论的说话人识别研究[D]. 俞一彪.上海大学2004
  • [3].说话人识别系统鲁棒性研究[D]. 付中华.西北工业大学2004
  • [4].支持向量机在说话人识别中的应用研究[D]. 雷震春.浙江大学2006
  • [5].说话人识别中提高GMM性能方法的研究[D]. 姚志强.中国科学技术大学2006
  • [6].基于模糊聚类与遗传算法的说话人识别理论研究及应用[D]. 林琳.吉林大学2007
  • [7].基于特征变换和分类的文本无关电话语音说话人识别研究[D]. 解焱陆.中国科学技术大学2007
  • [8].在噪声环境下的说话人识别[D]. 邱政权.华南理工大学2007
  • [9].复杂信道下的说话人识别[D]. 郭武.中国科学技术大学2007
  • [10].基于汉语元音映射的说话人识别技术研究[D]. 钱博.南京理工大学2007

相关论文

  • [1].多传感器信息融合方法及其在空间目标识别中的应用[D]. 张池平.哈尔滨工业大学2006
  • [2].多传感器信息融合研究[D]. 管天云.浙江大学1998
  • [3].基于模糊聚类与遗传算法的说话人识别理论研究及应用[D]. 林琳.吉林大学2007
  • [4].基于特征变换和分类的文本无关电话语音说话人识别研究[D]. 解焱陆.中国科学技术大学2007

标签:;  ;  ;  ;  ;  

基于非线性理论和信息融合的说话人识别
下载Doc文档

猜你喜欢