论文摘要
科技的发展使得数字视频潮水般涌入人们的日常生活。视频内容的丰富性和多样性、以及特征数据特有的时空高维结构,使得如何有效地对海量视频进行表达、存储和管理,以便人们快速地浏览和检索,成为一个亟待解决的重大课题。传统的数据管理与检索技术已远不能适应这种急速的变化和需求,因此基于内容的视频检索(CBVR)应运而生,相关的研究迅速在各国展开。目前,CBVR在多个方面取得了长足的进步,视频中语义信息的提取成为研究的热点,少数基于语义检索的原型系统也已出现。然而,由于语义对象的提取、语义的分析和理解等仍存在较大问题,大规模的应用还没实现。本文针对语义提取这个热点和难点从感知和认知的视角,结合电影理论和社会学等跨领域内容进行了较系统和循序渐进的研究,提出了一些新的框架和算法,主要内容如下:在视觉内容的表达方面,针对颜色、纹理等静态特征只能表示图像的内部特性,不能刻画序列图像的时间关系的问题,提出了一个压缩域全局运动特征的估计方法,并描述了视频内容在时域上的变化以及上下文关系。首先通过简化一个六参数运动模型估计出全局运动参数;随后提出基于滑动窗的视频运动分割算法,完成视频的全局运动分割和关键词注释,并运用特征点序列对运动信息进行了描述;最后,为了验证所提取运动特征的有效性,提出一个基于全局运动的视频检索框架。试验结果表明,该算法能准确地对视频进行全局运动分割,视频的全局运动检索也能获得较高的准确率,还实现了基于Xquery的关键词查询。镜头边界检测(SBD)是CBVR的基础,处于视频结构分析的底层,它的性能将直接影响其它视频分析的结果。为此提出了一个基于多层次特征描述和SVM的SBD算法。影响SBD性能的因素较多,本文将其总结为视觉内容的表达不够理想、序列图像的上下文联系不够紧密和分类器性能有待提高三方面,并提出了相应的解决办法:针对第一点,提出应该兼顾特征的敏感性和不变性,因此采用了从像素到全局的多层次特征描述方法;对第二点,运用一个变长滑动窗来建立特征矢量间的上下文联系;针对第三点,采用SVM分类器,通过主动学习和交叉验证分别来选择正负样本的比例和训练参数。此外,还提出边缘、运动等独立的检测子来对SVM分类结果中的误检加以修正。从TRECVID 2007的测评来看,我们的算法在15个参赛组中取得了较为满意的结果。在语义对象的提取方面,提出了一个基于视觉注意模型的语义对象的选择性提取算法。基于对象的语义提取是视频分析中的一个难点,对象的有效提取能够明显提高语义概念检测的准确性。对象的提取面临颜色的量化、图像的分割、语义对象的确定等诸多困难。针对这些问题,本文首先提出一个颜色的矢量量化算法完成彩色图像的量化;其次综合考虑图像的颜色和空间分布特性,提出一种基于图模型和区域组合的方法来分割图像;随后建立一个视觉注意模型来确定图像的视觉注意中心和转移顺序;接着在Gestalt准则下融合颜色、纹理以及边界特征来描述图像的同质特性;最后根据注意中心的转移顺序来提取图像的多个视觉显著对象。实验表明,在Corel图像库和TREC等视频上提取的显著对象获得了较高的主观评价。在视频摘要方面,提出了一个基于电影结构模型和感知线索的分层视频摘要产生框架,以及一套完整的模型算法。现有的视频摘要算法主要针对新闻、体育等非故事性结构而且时长较短的视频类型,不适用于全长度的电影。为此,首先提出一个故事结构模型—NP模型,将电影分解成幕、情节和场景三个层次,同时给出了场景的分割与分类算法;随后,构造一个基于情感刺激量的场景“重要性”函数来计算每个场景、情节、幕的重要性,以此来分配提取的关键帧和缩略的数目和长度;此外建立一个注意力模型来将重要的电影元素量化并融合成一条注意力曲线;最后将电影结构模型、情感模型和注意力模型有机地融合起来,提出了一个多层次的视频摘要框架,分别产生静态关键帧和动态视频缩略。七部好莱坞影片验证了框架的有效性和通用性,实验结果在信息量和愉悦度上都优于代表性的Ma提出的算法。在视频语义的提取方面,提出了一个基于社会网络分析(SNA)和电影本体(Ontology)的影片内容理解框架和一套语义提取算法。目前语义的研究主要集中在新闻、体育、医学等场景较为简单的视频类型,电影的自动理解则缺乏系统的研究。电影远比新闻等复杂,传统的语义分析方法难以缩小影片的语义鸿沟。本文从一个全新的视角提出通过SNA和建立电影本体来分析影片的故事内容。将电影看成一个特殊的社会网络,利用SNA来确定角色的社区结构和角色间的关系,并结合电影结构模型分析出故事的发展线索;其次,构造了一个电影本体,根据本体建立起角色的身份、职业以及政府各机构之间的联系;第三,提出一个分层的基于时间线索的高层动作事件检测方法,以及一个基于语义图的对话事件的摘要算法完成影片的语义分析。两部好莱坞电影验证了提出框架的可行性,其结果基本上满足语义视频检索的需求。