会议室环境下基于音频视频信息融合的多说话人识别

会议室环境下基于音频视频信息融合的多说话人识别

论文摘要

随着传感器技术的不断发展和音视频处理技术的不断提高,利用音视频融合方法进行说话人识别已经成为当前身份识别领域重要的技术手段。一个典型的应用就是会议室环境下的说话人识别。本文以AMI语料库中的视听会议为仿真材料,利用音视频融合的方法对会议过程中的多说话人进行了识别研究,具体工作如下:文章首先利用说话长度、说话能量、说话次数等单一特征以及上述特征的有效组合,对会议过程中的最主要说话人进行了识别。并对各项特征及特征组合的有效性进行了分析和排序。之后,实验利用严格和宽松两种评判标准,对会议中存在多位最主要说话人的情况进行了讨论。接下来,本文以ICSI RT07s说话人识别系统为参考,设计了基于音频信息的说话人识别系统。在语音活动检测阶段,实验运用高斯混合模型为语音/非语音检测器建模。与ICSI RT07s系统中基于隐马尔可夫模型的语音/非语音检测器相比,基于高斯混合模型的语音检测器原理清晰、可扩展性好,是本次研究的创新之处。之后,实验对建模过程中涉及到的若干可调参数进行了优化,并运用各项可调参数的最优值完成了说话人建模过程。在视频识别阶段,实验首先从数学原理出发,比较了两种帧间差分算法的优劣,并运用效果较好的一种帧差法对视频片段中面部活动水平最大的参会人进行了检测,将该参会人识别为会议中的说话人。与国外基于MPEG视频压缩格式的检测方法相比,本文的帧差法可以在任何视频格式下使用,是本次研究的另一个创新之处。在分别得到音频和视频识别结果之后,本文通过贪心的匹配融合算法,对音频和视频识别结果进行匹配关联,完成了不同模态下识别结果的融合。实验运用58段同步的音视频语料对融合算法的有效性进行了测试。结果表明,随着测试语料长度的增加,识别准确率也随之增加。系统对于58段测试语料整体的识别率可达74.14%。与传统的基于单模态信息的说话人识别相比,利用信息融合手段进行说话人识别可以有效提高识别过程的持续性和鲁棒性。当一类信息受到干扰或发生遮挡时,仍然可以利用另一类信息的有效性,完成说话人的识别。此外,基于音频视频联合的说话人识别,可以使实验人员在识别出说话人语音的同时,进一步看到说话人的相貌,从而使识别结果更加直观生动。这些都是本次研究的意义所在。

论文目录

  • 摘要
  • ABSTRACT
  • 附图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 课题的研究目的与意义
  • 1.2 课题的研究现状
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.3 现有会议室环境研究项目简介
  • 1.3.1 Interactive Multimodal Information Management
  • 1.3.2 Computer in the Human Interaction Loop
  • 1.3.3 Augmented Multimodal Interaction
  • 1.3.4 其他类似研究项目
  • 1.4 现有仿真语料库介绍
  • 1.5 本文的主要内容和各章节安排
  • 第2章 基于音频信息的多说话人识别
  • 2.1 滤波与语音增强技术
  • 2.1.1 维纳滤波技术
  • 2.1.2 倒谱均值相减技术
  • 2.1.3 语音波束叠加与到达时间延迟
  • 2.2 常用音频特征简介
  • 2.2.1 线性预测系数
  • 2.2.2 线性预测倒谱系数
  • 2.2.3 Mel 频率倒谱系数
  • 2.3 语音/非语音检测技术
  • 2.3.1 基于能量的语音/非语音检测
  • 2.3.2 基于模型的语音/非语音检测法
  • 2.4 说话人分割
  • 2.4.1 基于似然度的分割技术
  • 2.4.2 其他分割技术
  • 2.5 说话人聚类
  • 2.5.1 自下而上的聚类技术
  • 2.5.2 自上而下的聚类技术
  • 2.5.3 敌友聚类
  • 2.6 现有说话人识别系统介绍
  • 2.7 本章小结
  • 第3章 基于视频信息的说话人检测与识别技术
  • 3.1 常见说话人视频特征简介
  • 3.1.1 指纹特征
  • 3.1.2 虹膜特征
  • 3.1.3 人脸特征
  • 3.2 人脸活动检测技术
  • 3.2.1 背景消减法
  • 3.2.2 帧间差分法
  • 3.2.3 光流检测法
  • 3.2.4 边缘检测法
  • 3.2.5 运动矢量法
  • 3.3 本章小结
  • 第4章 实验过程与仿真结果
  • 4.1 利用非语义特征识别多人会议中的最主要说话人
  • 4.1.1 引言
  • 4.1.2 实验数据与实验方法
  • 4.1.3 结果与讨论
  • 4.1.4 结论与展望
  • 4.2 基于GMM 的多说话人识别系统
  • 4.2.1 引言
  • 4.2.2 系统结构描述
  • 4.2.3 实验语料库介绍
  • 4.2.4 实验结果与讨论
  • 4.2.5 结论与展望
  • 4.3 基于帧差法的说话人面部活动检测技术
  • 4.3.1 引言
  • 4.3.2 实验过程介绍
  • 4.3.3 实验结果与讨论
  • 4.3.4 结论与展望
  • 4.4 音频视频特征的融合与多说话人的识别
  • 4.4.1 引言
  • 4.4.2 实验过程介绍
  • 4.4.3 实验结果与讨论
  • 4.4.4 总结与展望
  • 总结与展望
  • 总结
  • 展望
  • 参考文献
  • 致谢
  • 附录A 攻读硕士学位期间参与的科研项目与发表的学术论文
  • 相关论文文献

    • [1].不同言语风格对法庭说话人识别的影响[J]. 中国刑警学院学报 2020(03)
    • [2].细菌趋药性算法在说话人识别中的应用[J]. 宿州学院学报 2017(11)
    • [3].基于修正Fukunaga-Koontz变换的说话人识别方法[J]. 电子器件 2018(04)
    • [4].说话人识别中基于深度信念网络的超向量降维的研究[J]. 电脑知识与技术 2017(22)
    • [5].基于Mahalanobis距离的说话人识别模型研究[J]. 中国语音学报 2016(00)
    • [6].基于自适应同源方差控制的法庭自动说话人识别[J]. 应用科学学报 2014(06)
    • [7].一种低信噪比下的说话人识别算法研究[J]. 计算机应用与软件 2014(12)
    • [8].基于元音共振峰特征的法庭说话人识别[J]. 中国刑警学院学报 2014(02)
    • [9].应用似然比框架的法庭说话人识别[J]. 数据采集与处理 2013(02)
    • [10].基于判别邻域嵌入算法的说话人识别[J]. 电子与信息学报 2019(07)
    • [11].深浅层特征及模型融合的说话人识别[J]. 声学学报 2018(02)
    • [12].基于AutoEncoder DBN-VQ的说话人识别系统[J]. 计算机技术与发展 2018(02)
    • [13].基于分层识别的快速说话人识别研究[J]. 计算机工程与科学 2018(07)
    • [14].特征音方法在说话人识别中的应用[J]. 计算机系统应用 2013(08)
    • [15].自组织特征映射神经网络在说话人识别中的应用[J]. 科技信息 2009(01)
    • [16].基于聚类分析的说话人识别研究[J]. 仪器仪表用户 2008(01)
    • [17].弯折滤波器在说话人识别的鲁棒特征提取中的应用[J]. 计算机系统应用 2017(12)
    • [18].说话人识别算法鲁棒性研究[J]. 南京工程学院学报(自然科学版) 2017(03)
    • [19].反蓄意模仿说话人识别系统中特征参数提取的研究[J]. 微型机与应用 2016(12)
    • [20].基于说话人识别的门禁系统的设计[J]. 才智 2012(12)
    • [21].与文本无关说话人识别特征提取的改进[J]. 电声技术 2008(11)
    • [22].面向说话人识别的甘肃临夏少数民族方言语音库的建设[J]. 兰州文理学院学报(自然科学版) 2019(06)
    • [23].基于压缩感知的鲁棒性说话人识别参数研究[J]. 计算机技术与发展 2016(03)
    • [24].基于组合特征参数的说话人识别系统设计[J]. 信息与电脑(理论版) 2014(20)
    • [25].基于小波包分解的抗噪说话人识别特征参数[J]. 通信技术 2010(12)
    • [26].基于具有深度门的多模态长短期记忆网络的说话人识别[J]. 激光与光电子学进展 2019(03)
    • [27].说话人识别中的分数域语速归一化[J]. 清华大学学报(自然科学版) 2018(04)
    • [28].基于因子分析概率统计模型的说话人识别[J]. 安阳师范学院学报 2017(05)
    • [29].说话人识别技术及其在工厂自动控制系统中的应用[J]. 企业技术开发 2015(08)
    • [30].与文本无关说话人识别[J]. 计算机与数字工程 2014(02)

    标签:;  ;  ;  ;  ;  ;  

    会议室环境下基于音频视频信息融合的多说话人识别
    下载Doc文档

    猜你喜欢