论文摘要
人类大脑能够对来自各个感官的多源传感信息进行融合加工,帮助人们在复杂的环境下准确跟踪和识别事物。在智能会议环境中,对说话人进行跟踪是人机交互的一个重大研究课题,如何借鉴大脑的融合机理,利用多模态传感信息,有效融合同源说话人的语音信息和视频图像信息,从而达到鲁棒准确的跟踪效果,已成为异类信息融合的一个研究热点。在充分总结和探讨多源信息融合、视频跟踪、声源定位及滤波算法的研究现状和基本理论的基础上,提出了两种基于多源信息融合的人物跟踪算法。一种是基于多视频特征信息融合的多人物跟踪,另一种是基于音频视频信息融合的说话人跟踪。多视频特征信息融合的多人物跟踪系统,它是利用肤色抗旋转和抗遮挡的特性,通过颜色直方图给出了颜色似然模型;并利用轮廓信息能够较好的反映目标形状的特性,通过边缘梯度搜索策略给出了轮廓似然模型;最后在粒子滤波框架下,融合颜色信息和轮廓信息来跟踪多个人物。在音频视频信息融合的说话人跟踪系统中,结合同源说话人语音和视频图像之间的互补性,利用麦克风时延的声源定位和均值漂移肤色跟踪,分别建立音频模型和视频模型,以重要性粒子滤波为工具,建立融合似然模型和融合重要性函数,从中产生粒子并进行滤波跟踪。同时,采用流程化的闭环处理框架,并在跟踪过程中引入反馈环节,提高跟踪的准确性和完整性。仿真实验表明,上述信息融合跟踪算法是可行的。基于多视频特征信息融合的多人物跟踪算法对光照及背景变化等干扰都具有一定的鲁棒性。基于音频视频信息融合的说话人跟踪算法可以准确跟踪到会议中的主要发言人,在人物交错、移动、姿态变化等复杂情况下跟踪效果都较好。
论文目录
摘要Abstract插图索引附表索引第1章 绪论1.1 课题研究背景及意义1.1.1 课题的研究背景1.1.2 课题的研究意义1.2 音频视频目标跟踪的国内外研究现状1.2.1 目标跟踪概述1.2.2 音频视频说话人跟踪的国内外研究现状1.3 本文主要研究工作及组织结构1.4 本章小结第2章 多源信息融合2.1 多源信息融合基础理论2.1.1 多源信息融合的概念2.1.2 多源信息融合的功能模型2.1.3 信息融合的级别2.2 多源信息融合跟踪系统2.3 异类信息融合2.3.1 雷达与红外融合目标跟踪2.3.2 音频视频融合目标跟踪与识别2.4 多源信息融合的研究现状2.5 本章小结第3章 基于视频多特征信息融合的多人目标跟踪3.1 粒子滤波3.1.1 蒙特卡罗方法3.1.2 序贯重要性采样算法3.1.3 粒子权值退化现象3.1.4 重要性函数的选取3.1.5 重采样方法3.1.6 粒子滤波算法流程3.2 基于视频多特征信息的人物跟踪3.2.1 人脸肤色观测似然模型3.2.2 头部轮廓测似然模型3.2.3 多视频信息融合观测似然模型3.3 算法仿真与结果分析3.4 本章小结第4章 音视频信息融合的说话人跟踪4.1 音频视频融合说话人跟踪系统4.2 基于肤色的人脸跟踪4.3 基于声源定位的音频跟踪4.4 音视频信息融合与反馈4.5 实验仿真及分析4.6 本章小结结论与展望参考文献致谢附录攻读学位期间参与科研项目和发表的学术论文目录
相关论文文献
标签:音频视频论文; 异类信息融合论文; 目标跟踪论文; 均值漂移论文; 声源定位论文;