论文摘要
随着电子技术和信息处理技术的发展,视频数据在现代社会中发挥着越来越重要的作用。然而由于视频数据本身线性和非结构化数据形式使得视频数据不便于浏览、编辑和检索。视频结构化和摘要提取技术正是为了解决上述问题而出现的,视频数据结构化是把视频制作过程中“消失”的镜头和场景恢复出来;视频摘要提取是从视频数据中摘取具有代表性的图像帧或视频片段。通过视频结构化和摘要提取,能够生成一个有意义的并且能够体现视频内容的结构大纲,便于用户对视频内容进行浏览、编辑和检索。基于混合特征的视频结构化和摘要提取采用高层特征和低层特征相结合的方法,以加强对镜头关键帧的描述能力,进而提高视频结构化的准确性和提取摘要的广泛性。首先,利用颜色和图像边界方向特征快速地检测镜头并提取镜头的关键帧。其次,依照先前已建立好的视频场景语义模型,利用视觉词袋(Bag-of-Words)模型对镜头关键帧进行语义分析和高层特征的提取。然后借助于镜头关键帧的高层和低层特征,采用两遍滑窗法实现对视频场景边界的检测。最后,根据镜头时间长度、运动特性、以及镜头间的相似性等信息提取场景的关键镜头,并根据场景时间长度信息提取基于章节的视频摘要。实验结果表明,基于混合特征的视频结构化方法在场景检测的查全率和查准率方面比传统的仅仅依靠底层特征的方法有较大提高;而在此基础上提取的场景和章节摘要适合于光盘等存储介质视频数据的导航系统和方便用户进行视频浏览和分析。