智能环境下基于音频视频信息融合的多说话人跟踪

论文摘要

人类大脑能够对来自各个感官的多源传感信息进行融合加工,帮助人们在复杂的环境下准确跟踪和识别事物。在智能会议环境中,对说话人进行跟踪是人机交互的一个重大研究课题,如何借鉴大脑的融合机理,利用多模态传感信息,有效融合同源说话人的语音信息和视频图像信息,从而达到鲁棒准确的跟踪效果,已成为异类信息融合的一个研究热点。在充分总结和探讨多源信息融合、视频跟踪、声源定位及滤波算法的研究现状和基本理论的基础上,提出了两种基于多源信息融合的人物跟踪算法。一种是基于多视频特征信息融合的多人物跟踪,另一种是基于音频视频信息融合的说话人跟踪。多视频特征信息融合的多人物跟踪系统,它是利用肤色抗旋转和抗遮挡的特性,通过颜色直方图给出了颜色似然模型;并利用轮廓信息能够较好的反映目标形状的特性,通过边缘梯度搜索策略给出了轮廓似然模型;最后在粒子滤波框架下,融合颜色信息和轮廓信息来跟踪多个人物。在音频视频信息融合的说话人跟踪系统中,结合同源说话人语音和视频图像之间的互补性,利用麦克风时延的声源定位和均值漂移肤色跟踪,分别建立音频模型和视频模型,以重要性粒子滤波为工具,建立融合似然模型和融合重要性函数,从中产生粒子并进行滤波跟踪。同时,采用流程化的闭环处理框架,并在跟踪过程中引入反馈环节,提高跟踪的准确性和完整性。仿真实验表明,上述信息融合跟踪算法是可行的。基于多视频特征信息融合的多人物跟踪算法对光照及背景变化等干扰都具有一定的鲁棒性。基于音频视频信息融合的说话人跟踪算法可以准确跟踪到会议中的主要发言人,在人物交错、移动、姿态变化等复杂情况下跟踪效果都较好。

论文目录

摘要

Abstract

插图索引

附表索引

第1章绪论

1.1 课题研究背景及意义

1.1.1 课题的研究背景

1.1.2 课题的研究意义

1.2 音频视频目标跟踪的国内外研究现状

1.2.1 目标跟踪概述

1.2.2 音频视频说话人跟踪的国内外研究现状

1.3 本文主要研究工作及组织结构

1.4 本章小结

第2章多源信息融合

2.1 多源信息融合基础理论

2.1.1 多源信息融合的概念

2.1.2 多源信息融合的功能模型

2.1.3 信息融合的级别

2.2 多源信息融合跟踪系统

2.3 异类信息融合

2.3.1 雷达与红外融合目标跟踪

2.3.2 音频视频融合目标跟踪与识别

2.4 多源信息融合的研究现状

2.5 本章小结

第3章基于视频多特征信息融合的多人目标跟踪

3.1 粒子滤波

3.1.1 蒙特卡罗方法

3.1.2 序贯重要性采样算法

3.1.3 粒子权值退化现象

3.1.4 重要性函数的选取

3.1.5 重采样方法

3.1.6 粒子滤波算法流程

3.2 基于视频多特征信息的人物跟踪

3.2.1 人脸肤色观测似然模型

3.2.2 头部轮廓测似然模型

3.2.3 多视频信息融合观测似然模型

3.3 算法仿真与结果分析

3.4 本章小结

第4章音视频信息融合的说话人跟踪

4.1 音频视频融合说话人跟踪系统

4.2 基于肤色的人脸跟踪

4.3 基于声源定位的音频跟踪

4.4 音视频信息融合与反馈

4.5 实验仿真及分析

4.6 本章小结

结论与展望

参考文献

致谢

附录攻读学位期间参与科研项目和发表的学术论文目录

智能环境下基于音频视频信息融合的多说话人跟踪

论文摘要

论文目录

相关论文文献

猜你喜欢