噪声环境下说话人识别的研究

噪声环境下说话人识别的研究

论文摘要

作为一种基于生物特征信息的身份识别方法,说话人识别通过语音来识别说话人的身份,说话人识别在电子商务、消费、银行等远程客户服务的身份认证、军事安全领域的说话人身份自动检测和认证中具有极大的应用价值和广泛的应用前景,是当今语音信号处理和生物特征信息检测和识别领域的重要研究方向。由于说话人个性以及实际应用环境的复杂性,说话人识别技术虽然取得了一定的进步,其瓶颈效应也逐步显现,进一步提高比较困难,离真正的实际应用还有一段距离。本文从端点检测、语音增强、特征提取、后端处理等角度对说话人识别进行了研究,取得了一些研究成果。本文首先回顾了说话人识别的研究发展历程,指出了目前说话人识别研究的热点和难点。语音信号具有混沌的特征,分形维理论是描述混沌信号的一种手段,本文从分形维的定义出发,提出了一种新的基于波形的算法(Improvement Fractal Dimension algorithm Based on Wave :IBW-FD)。该算法只需计算波形长度,与盒维、Katz维相比,计算更加简单。通过分形布朗曲线验证了该算法比盒维和Katz维具有更高的精确度,在高斯白噪声和三种非平稳噪声下该算法与盒维、Katz维相比抗干扰能力更强。端点检测是说话人识别系统的第一步,一直是语音信号处理研究的热点。本文根据语音和噪声的特点,将前面提出的IBW分形维引入端点检测,将之与能量的方法相结合,提出了一种基于能量和分维的联合端点检测方法(VAD way of unite energy and fractal dimension:UEFD)。寻找新的有效的说话人识别特征参数和已有特征参数的有效组合是说话人识别参数提取研究的热点。本文将前面提出的IBW分形维与MFCC特征参数有机结合,作为说话人识别系统的混合特征参数。通过实验发现,新的混合特征具有一定优势。基于离散余弦变换的语音增强方法是目前国内外语音增强领域内研究的热点,而对于离散分数余弦变换的研究国际上还比较少,而国内外对于离散分数余弦变换的应用研究就更少,本文基于态函数,提出了两种基于态函数的离散分数余弦变换方法——二周期离散分数余弦变换和三周期离散分数余弦变换;并把它们应用于语音增强中,结合了语音增强的特点,提出了四种基于离散分数余弦变换的语音增强方法——基于二周期离散分数余弦变换的语音增强算法(speech enhancement based on two cycles Discrete Fractional cosine Transform:FDCT2)、改进的基于二周期离散分数余弦变换的语音增强算法(speech enhancement based on modified two cycles Discrete Fractional cosine Transform:MFDCT2)、基于三周期离散分数余弦变换的语音增强算法(speech enhancement based on three cycles Discrete Fractional cosine Transform :FDCT3)和改进的基于三周期离散分数余弦变换的语音增强算法(speech enhancement based on modified three cycles Discrete Fractional cosine Transform :MFDCT3)等四种算法,结果表明本文提出的几种算法要优于常规的DCT算法。在噪声环境下语音增强的研究中多级滤波方法具有明显的优势,其中欧洲电信标准化协会提出的两级MEL域维纳滤波结构具有较优良的降噪效果。但缺点是结构复杂,反复的时域-频域转换带来计算量的急剧上升;研究发现,单纯地从时域或变换域很难消除语音中存在的噪声和干扰,而分数余弦变换是一种非常优良的分析工具,本文将前面提出的基于态函数的分数余弦变换应用于语音增强中,提出了分数余弦变换

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 说话人识别研究的背景和意义
  • 1.2 国内外研究现状和存在的问题
  • 1.3 本文主要工作
  • 1.3.1 噪声环境下语音分形特征的提取和分析
  • 1.3.2 IBW分维在噪声环境下说话人识别中的应用
  • 1.3.3 基于态函数的分数余弦变换的提出及在说话人识别系统语音增强中的应用
  • 1.3.4 分数余弦变换域上的级联滤波和分频段并联滤波
  • 1.3.5 帧似然概率非线性变换的研究
  • 1.4 论文组织结构
  • 第2章 说话人识别理论基础
  • 2.1 引言
  • 2.2 说话人识别的基本结构
  • 2.2.1 预处理
  • 2.2.2 说话人识别特征的选取
  • 2.2.3 说话人识别方法的研究
  • 2.3 本章小结
  • 第3章 噪声环境下语音分形特征的提取和分析
  • 3.1 引言
  • 3.2 基于波形的Katz算法
  • 3.3 一种改进的基于波形长度的盒维算法(IBW-FD)
  • 3.4 IBW短时分形维算法的性能分析
  • 3.4.1 IBW-FD算法的α,β,m参数的确定
  • 3.4.2 分形布朗曲线下的IBW短时分形维算法的性能
  • 3.5 含噪语音的短时分形维算法的性能分析
  • 3.5.1 高斯白噪声环境下短时语音的分维分析
  • 3.5.2 非平稳噪声下的短时语音的分维分析
  • 3.5.3 多种噪声影响下语音信号的分维方差分析
  • 3.6 计算复杂度分析
  • 3.7 本章小结
  • 第4章 IBW分维在噪声环境下说话人识别中的应用
  • 4.1 引言
  • 4.2 IBW分维在端点检测中的应用
  • 4.2.1 含噪语音的能量和分维
  • 4.2.2 基于能量和分维的联合端点检测方法
  • 4.2.3 不同噪声环境下UEFD方法的性能比较
  • 4.2.4 UEFD法的计算复杂度分析
  • 4.3 利用IBW分维和Mel倒谱参数特征的特征组合进行说话人识别
  • 4.3.1 引言
  • 4.3.2 基于分维和Mel倒谱参数特征的特征组合
  • 4.4 本章小结
  • 第5章 一种新的离散分数余弦变换的提出及在语音增强中的应用
  • 5.1 引言
  • 5.2 分数阶算子的概念
  • 5.3 基于态函数的分数傅里叶变换
  • 5.4 基于态函数的分数余弦变换的提出
  • 5.4.1 二周期分数余弦变换的提出
  • 5.4.2 三周期离散分数余弦变换的提出
  • 5.5 离散分数余弦变换在语音增强中的应用
  • 5.6 实验结果与分析
  • 5.6.1 四种基于离散分数余弦变换的语音增强的算法的性能分析
  • 5.6.2 四种基于分数余弦变换的语音增强算法在噪声环境下说话识别中的应用
  • 5.7 四种算法的复杂度简单分析
  • 5.8 本章小结
  • 第6章 分数余弦变换域上的级联滤波和分频段并联滤波
  • 6.1 引言
  • 6.2 两级MEL域维纳滤波结构
  • 6.3 基于分数余弦变换域的滤波
  • 6.3.1 分数余弦变换域上的最佳线性滤波
  • 6.3.2 分数余弦变换域上的两级滤波思想
  • 6.3.3 分数MEL域上的两级维纳滤波结构
  • 6.3.4 分数余弦变换域上的两级最佳线性滤波结构
  • 6.3.5 离散分数余弦变换域上的分波段并联滤波结构
  • 6.4 噪声环境下分数余弦变换域上滤波器的性能分析
  • 6.4.1 离散分数余弦变换域上的语音增强算法的性能比较
  • 6.4.2 离散分数余弦变换域上的语音增强算法在噪声环境下说话识别中的应用
  • 6.5 分数余弦域上滤波器的计算复杂度的简单分析
  • 6.6 本章小结
  • 第7章 采用归一化补偿变换的与文本无关的说话人识别
  • 7.1 引言
  • 7.2 对帧似然概率的线性变换与误识率
  • 7.3 归一化补偿变换
  • 7.4 实验结果与分析
  • 7.5 本章小结
  • 第8章 总结与展望
  • 8.1 本文已取得的研究成果
  • 8.2 可以进一步研究的问题
  • 参考文献
  • 致谢
  • 博士期间发表的相关论文
  • 相关论文文献

    • [1].不同言语风格对法庭说话人识别的影响[J]. 中国刑警学院学报 2020(03)
    • [2].细菌趋药性算法在说话人识别中的应用[J]. 宿州学院学报 2017(11)
    • [3].基于修正Fukunaga-Koontz变换的说话人识别方法[J]. 电子器件 2018(04)
    • [4].说话人识别中基于深度信念网络的超向量降维的研究[J]. 电脑知识与技术 2017(22)
    • [5].基于Mahalanobis距离的说话人识别模型研究[J]. 中国语音学报 2016(00)
    • [6].基于自适应同源方差控制的法庭自动说话人识别[J]. 应用科学学报 2014(06)
    • [7].一种低信噪比下的说话人识别算法研究[J]. 计算机应用与软件 2014(12)
    • [8].基于元音共振峰特征的法庭说话人识别[J]. 中国刑警学院学报 2014(02)
    • [9].应用似然比框架的法庭说话人识别[J]. 数据采集与处理 2013(02)
    • [10].基于判别邻域嵌入算法的说话人识别[J]. 电子与信息学报 2019(07)
    • [11].深浅层特征及模型融合的说话人识别[J]. 声学学报 2018(02)
    • [12].基于AutoEncoder DBN-VQ的说话人识别系统[J]. 计算机技术与发展 2018(02)
    • [13].基于分层识别的快速说话人识别研究[J]. 计算机工程与科学 2018(07)
    • [14].特征音方法在说话人识别中的应用[J]. 计算机系统应用 2013(08)
    • [15].自组织特征映射神经网络在说话人识别中的应用[J]. 科技信息 2009(01)
    • [16].基于聚类分析的说话人识别研究[J]. 仪器仪表用户 2008(01)
    • [17].弯折滤波器在说话人识别的鲁棒特征提取中的应用[J]. 计算机系统应用 2017(12)
    • [18].说话人识别算法鲁棒性研究[J]. 南京工程学院学报(自然科学版) 2017(03)
    • [19].反蓄意模仿说话人识别系统中特征参数提取的研究[J]. 微型机与应用 2016(12)
    • [20].基于说话人识别的门禁系统的设计[J]. 才智 2012(12)
    • [21].与文本无关说话人识别特征提取的改进[J]. 电声技术 2008(11)
    • [22].面向说话人识别的甘肃临夏少数民族方言语音库的建设[J]. 兰州文理学院学报(自然科学版) 2019(06)
    • [23].基于压缩感知的鲁棒性说话人识别参数研究[J]. 计算机技术与发展 2016(03)
    • [24].基于组合特征参数的说话人识别系统设计[J]. 信息与电脑(理论版) 2014(20)
    • [25].基于小波包分解的抗噪说话人识别特征参数[J]. 通信技术 2010(12)
    • [26].基于具有深度门的多模态长短期记忆网络的说话人识别[J]. 激光与光电子学进展 2019(03)
    • [27].说话人识别中的分数域语速归一化[J]. 清华大学学报(自然科学版) 2018(04)
    • [28].基于因子分析概率统计模型的说话人识别[J]. 安阳师范学院学报 2017(05)
    • [29].说话人识别技术及其在工厂自动控制系统中的应用[J]. 企业技术开发 2015(08)
    • [30].与文本无关说话人识别[J]. 计算机与数字工程 2014(02)

    标签:;  ;  ;  ;  ;  ;  ;  

    噪声环境下说话人识别的研究
    下载Doc文档

    猜你喜欢