视音频信息融合算法研究

论文摘要

近年来,随着计算机信息化进程的发展,越来越多的视频设备以及技术应用到人们的学习以及日常生活中。视频会议、视频搜索引擎技术以及视频数据查询等等技术的应用,在包括电影、电视、会议记录、科学文献等众多领域产生了大量的非文本数据。对于个人而言,个人摄影设备的普及,以及互联网技术的改进,让普通人发布个人拍摄视频变得极其简单,也因此产生了大量的视频数据。如何处理如此众多的多媒体信息,如何组织数据并对其建立索引进行检索,对现有的视频处理技术是个严峻考验。早期的多媒体信息检索算法已经偏离了便宜操作的最初目的,未来检索算法的设计需要融合底层更多具有代表性的视觉、听觉、语义特征。视频信息的多模态性质为信息融合提供了基础。现有的分析融合技术大多针对单一模态,但是视频是具有多模态性质的特殊数据,并且在描述同一主题时,其包含的多种模态具有很大关联性。因此需要一种有效的方法对视频进行融合分析,用于更加准确地对视频进行分类和检索。本文在处理视频特征、融合视频特征过程中的主要工作如下：1、针对目前处理视频数据的模型定义局限于新闻、广告等特定领域,并且处理过程中使用的处理技术过于单一、陈旧,本文采用研究分析证明的一系列相对高效的视频处理技术定义了一个相对完备的视频检索预处理模型。该模型利用视频底层特征的多模态性质,提取出视频的时间结构,然后对内容进行特征提取,从原始视频中构造出视频数据的子集。本文基于此过程提取出视频的关键帧,并从视频的音频流中提取出音频特征。为简化运算,对提取出的底层特征统一进行降维处理,本文采用的降维算法为Shuicheng Yan等人最新研究的——边际fisher分析降维算法,该方法优于目前通常采用的PCA、LDA等降维算法。根据得到的各种特征向量,利用鲁棒性较好的支持向量机SVM分类器分类处理。2、在对基于多模态特征的分类结果进行融合时,提出了一种改进的MGR融合算法。依据特征向量经分类器处理后输出的样本序号矩阵,基于Melnik等设计的融合框架,为实现置信度和优先权的优化,设计了一个融合分数函数来改进MGR算法。改进后的算法比起MGR算法,降低了计算量,并且减少了参数数量,在识别率方面也有一定的改善。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 课题研究背景

1.2 多媒体检索及信息融合研究现状

1.3 论文组织结构

第二章视频结构化分析

2.1 视频镜头边界检测方法

2.2 视频关键帧提取

2.3 视觉特征描述及特征提取

2.3.1 基于强度的特征

2.3.2 基于几何的特征

2.3.3 时空信息特征

2.3.4 听觉特征

2.3.5 语义特征

第三章视频的降维及分类处理

3.1 流行的降维算法

3.2 边际fisher分析降维算法描述

3.3 支持向量机分类器SVM概述

第四章融合算法的分析与设计

4.1 现有信息融合算法

4.2 MGR融合算法

4.3 改进MGR融合算法

第五章融合算法实验设计与结果

5.1 实验环境和实验数据

5.2 实验设计

5.3 实验结果分析

第六章总结

参考文献

致谢

攻读学位期间发表的学术论文目录

视音频信息融合算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢