基于内容的视频分析关键技术

论文摘要

随着计算机和通信技术、宽带网络技术、音视频压缩技术以及计算机硬件技术的发展,数字视频也越来越广泛地融入于人们的生活中。由于视频数据自身内容的丰富性和多样性、结构的复杂性以及具有时空多维结构性,如何有效地对这些视频数据进行组织、表达、存储和管理,以便人们快速地浏览和检索,成为一个亟待解决的重大课题。传统的数据管理与检索技术已远不能适应这种急速的变化和需求,因此基于内容的视频检索（CBVR）应运而生,相关的研究迅速在各研究机构展开。同时,随着网络摄像头的普及以及人们安全意识的提高,对于视频监控以及监控视频的智能分析的需求也越来越迫切。目前,虽然CBVR和监控视频的智能分析在多个方面取得了长足的进步,但是视频中语义对象的提取、检索、视频的智能分析等仍存在较大的问题。本论文围绕基于内容的视频分析与检索中的难点—高层语义提取问题,从底层特征描述、语义对象提取、评估协议、事件检测、医疗设备使用监督等方面进行了研究,提出了一些新的算法和框架,主要贡献如下：在视觉底层特征方面,对大规模数据中视觉底层特征在高层语义提取上的性能进行了全面评估,并提出了ML-SIFT特征提取算法。如何从众多的底层特征中选择出好的特征以更好地描述视频,决定了视频高层语义提取的性能。因此,本章在TRECVID2009大规模数据集上,通过实验对目前在高层语义提取中广泛使用的基于关键点、纹理、边缘、颜色信息的多种类型的视觉底层特征进行了全面的性能评估,其结果对高层语义提取中的特征选择是很有价值的参考。在本章中,我们还针对在高层语义提取中表现最好的关键点特征,提出了一种ML-SIFT算法。在数据集Calatech256和Sceneclass13上的实验表明,ML-SIFT算法是有效地,其性能较SIFT和SURF算法性能要好。在高层语义提取方面,提出了基于最佳选择的混合融合算法和基于不同标注的融合算法。虽然已经有一些不同的决策级融合算法,并取得了不错的成绩,然而,目前有些融合算法性能的提高不是很明显,也有些融合算法仅对部分甚至小部分语义提取的性能有帮助,而对其它语义提取的性能却没有任何帮助。为此提出了基于最佳选择的混合融合算法。通过在TRECVID 2008数据集上实验表明,基于最佳选择的混合融合算法的性能提高率最好,且对所有语义都有一定的促进作用。同时,针对不同标注对算法性能的影响以及不同标注方法的差异,提出了基于不同标注的融合算法。通过在TRECVID2008数据集上实验显示,基于不同标注的融合算法对对象类高层语义非常有效,而且90%以上的对象类语义的性能都能得到提高。在动作识别算法评估协议方面,量化评估了不同评估协议对算法性能的影响。虽然很多动作识别算法被提出,但是对于算法性能的评估却没有统一平台,而更为糟糕的是,研究者对评估协议对算法性能的影响尚认识不足,这对相关技术的发展是不利的。本章以先进的MoSIFT特征和SVM分类器识别方法为基本算法,在广泛使用的公开数据集KTH上,从不同角度考察了评估协议对动作识别算法性能的影响。实验表明,采用不同的n交叉实验方法,算法性能有很大的波动,当采用1交叉实验方法时,波动最大,达到10.5%；当分别采用留一法与n交叉实验方法时,算法性能同样具有较大的波动,其最大波动达到7.926%。对于n交叉实验方法,随着n交叉实验次数的增加,其性能变化逐渐减小,当交叉次数增加到25次以上,算法性能才是稳定的。另外,不同数据集划分方法对算法性能也有较大的影响,因此在进行算法比较时,需要采用相同的数据划分方法；如果必须在不同的数据划分下实验,则留一法交叉实验方法能使其误差较小在大规模数据集中数据不平衡方面,提出了增强等级算法。由于数据不平衡问题在日常生活中普遍存在,且对分类器性能有较大的影响,所以本章在对现有的处理数据不平衡问题的算法分析的基础上,提出了增强等级算法,该算法集采样、过滤和训练为一体,并融入了等级层次结构。在TRECVID数据集上的评测结果表明,该算法在处理数据不平衡问题时,比任意下采样算法和合奏下采样算法的性能要好,当EHS算法的层数增加时,其性能也能够稳定的提高,具有较好的稳定性。对于不同类型的特征,EHS算法同样表现出优越、稳定的性能,具有良好的鲁棒性。当将该算法应用到2010年的TRECVID视频监控竞赛中,在四个事件上取得了第一的成绩。在家庭医疗设备使用的监督方面,讨论了家庭医疗设备使用监督的可行性问题,提出了一套解决方案。对MAUDE数据集中医疗事故的原因和家庭医疗设备使用情况的调查发现,对家庭医疗设备使用进行监督非常必要。通过卡耐基梅隆大学的CASCUHM研究计划,本章对家庭输液泵使用监督的可行性进行了较为深入的研究,从传感器选择、设置,操作协议的制定,到操作动作的识别算法等,提出了一套解决方案,最终达到平均准确率80%左右,初步证明自动化监督家庭医疗设备的使用是可能的,也为认知辅助系统CASCUHM的研制提供了经验。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 相关的MPEG国际标准

1.2.1 多媒体内容描述接口MPEG-7

1.3 视频分析与检索关键技术及研究现状

1.3.1 视频结构化分析

1.3.2 视频摘要

1.3.3 视频语义分析和提取

1.3.4 视频数据模型

1.3.5 视频数据索引及视频检索

1.3.6 现有的原型系统

1.4 TRECVID国际评测

1.5 论文的主要工作和安排

1.5.1 论文的主要研究工作

1.5.2 论文的主要结构

参考文献

第二章视觉底层特征的性能评估

2.1 引言

2.2 相关工作

2.3 视觉底层特征

2.3.1 基于关键点的特征

2.3.2 基于纹理信息的特征

2.3.3 基于边缘信息的特征

2.3.4 基于颜色信息的特征

2.4 视觉底层特征处理

2.4.1 基于局部特征点的图像特征维数归一化

2.4.2 特征值的归一化

2.5 视觉底层特征的性能评估

2.5.1 实验系统框架

2.5.2 实验数据

2.5.3 实验评估及分析

2.6 Multi-Layer SIFT算法

2.6.1 ML-SIFT合理性分析

2.6.2 ML-SIFT特征的融合

2.6.3 ML-SIFT算法的性能

2.6.3.1 实验设置

2.6.3.2 相邻阶之间子抽样率变化对性能的影响

2.6.3.3 ML-SIFT算法的性能测试

2.6.3.4 ML-SIFT算法的稳定性

2.7 本章小结

参考文献

第三章高层语义提取中的融合算法

3.1 引言

3.2 高层语义提取及相关工作

3.2.1 任务概述

3.2.2 相关工作

3.3 视频数据的标注方法

3.4 决策级融合算法

3.5 提出的新融合算法

3.5.1 基于最仕选择的混合融合算法

3.5.2 基于不同标注的融合算法

3.6 实验设置

3.6.1 高层语义提取系统框架及数据

3.6.2 使用的视觉低层特征

3.6.3 分类器训练及评价准则

3.7 基于最佳选择的混合融合算法的性能

3.8 基于不同标注的融合算法的性能

3.8.1 标注一致性对算法性能的影响

3.8.2 标注重叠程度对算法性能的影响

3.8.3 基于不同标注的融合算法的性能

3.9 本章小结

参考文献

第四章 KTH动作数据集的评估协议

4.1 引言

4.2 动作识别的相关工作

4.3 所使用的识别算法

4.3.1 时空局部特征-MoSIFT

4.3.2 支持向量机

4.4 数据集及数据集划分

4.4.1 数据集

4.4.2 数据集划分方法

4.5 交叉实验方法

4.6 实验评估及性能分析

4.6.1 实验设置

4.6.2 码书大小对算法性能的影响

4.6.3 交叉实验方法对算法性能的影响

4.6.4 数据集划分对算法性能的影响

4.6.4.1 不同交叉实验方法下数据集划分对算法性能的影响

4.6.4.2 不同场景下数据集划分对算法性能的影响

4.7 本章小结

参考文献

第五章大规模数据集中数据不平衡问题

5.1 引言

5.2 相关工作

5.3 增强等级结构算法

5.4 增强等级结构算法在TRECVID高层语义提取上的性能

5.4.1 实验设置

5.4.2 分类器模型的选择

5.4.3 增强等级结构算法在不同类型特征下的性能

5.5 增强等级结构算法在TRECVID视频监控上的性能

5.5.1 实验设置

5.5.2 增强等级结构算法在TRECVID事件检测中的性能

5.6 本章小结

参考文献

第六章家庭医疗设备使用的监督

6.1 引言

6.2 相关工作

6.3 需求分析

6.4 系统设计

6.4.1 测试环境的设置及视频录制

6.4.2 视频中动作描述

6.4.3 传感器信息的融合

6.4.5 动作的序列信息

6.4.6 模型的训练

6.5 实验评估及分析

6.5.1 实验设置

6.5.2 操作步骤的聚类

6.5.3 视频传感器信息的融合

6.5.4 分类器模型训练

6.5.5 操作步骤的序列性

6.5.6 电子传感器的应用

6.5.7 视频训练样本的数目

6.6 本章小结

参考文献

第七章总结与展望

7.1 论文工作总结

7.2 未来工作建议

致谢

攻读博士期间发表的论文目录

基于内容的视频分析关键技术

论文摘要

论文目录

相关论文文献

猜你喜欢