基于内容的同源音频和视频检索

论文摘要

随着互联网的发展,越来越多的人能够方便快捷地接触到数字媒体,多媒体数据已经成为互联网信息高速公路上传输的主要内容。人们所面临的主要问题是如何在浩如烟海的多媒体数据中找到自己所需要的信息。基于内容的音视频检索是视频检索领域的新热点,它对音视频由底层到高层分步进行分析,从中对音视频的内容进行描述并对这个内容进行检索。作为基于内容的视频检索的一个特殊应用,基于内容的音视频版权检索正在引起人们越来越高的关注。同源音视频检索的主要应用领域有：音视频的版权保护以及对特定的音视频内容进行监控。本文分别从图像序列和语音信号两个方面着手,着眼于检索的效率和精度两个主要问题,设计并实现了同源的音频和视频检索两套系统,主要工作如下：在视频检索方面,我们突破了运算量的瓶颈,使用并行运算集群训练了一个5万维的视觉字典,大大提高了索引的精度。之后,为该大规模视觉字典设计了一种二级码书投影方法,进一步提高了索引的效率。最后,为了优化数据库中数据的访问速度,我们根据视觉字典的索引设计并实现了倒排索引的数据存储结构。在音频检索方面,基于不同的音频特征,提出了两种检索方法。首先提出了基于传统MFCC音频特征及希尔伯特曲线索引的检索框架。其后又提出了一种名为差分能量特征的音频指纹,并为之设计了哈希索引的音频检索系统。对两种框架进行了性能比较,最终选定后者实现音频检索。最后,本文对音视频检索两套系统进行融合,参加TRECVID2010同源视频和音频检索的评测。结果表明,本系统的整体性能高于所有参赛队的平均水平,这也验证了本系统的有效性。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 课题研究背景和意义

1.2 国内外相关研究进展

1.3 TRECVID测评

1.4 本文的工作和安排

1.4.1 主要研究内容

1.4.2 论文结构安排

第二章基于内容的同源视频检索

2.1 同源视频检索概述

2.1.1 同源视频检索定义

2.1.2 同源视频检索体系架构

2.1.3 同源视频检索框架

2.1.4 同源视频检索关键技术

2.2 同源视频检索特征选取

2.2.1 尺度不变性和旋转不变性

2.2.2 SIFT特征提取

2.3 同源视频检索索引结构

2.3.1 K均值聚类算法

2.3.2 基于并行计算集群的码书训练

2.3.3 二级码书

2.3.4 特征样本投影

2.3.5 进制签名

2.3.6 匹配的辅助条件

2.3.7 倒排索引文件

2.4 同源视频检索特征匹配策略

2.4.1 关键点间的相似性度量

2.4.2 视频帧间的相似性度量

2.4.3 视频间的相似性度量

2.4.4 匹配段的定位

2.5 实验结果与分析

2.5.1 测试数据

2.5.2 测试结果和分析

2.6 本章小结

第三章基于内容的同源音频检索

3.1 同源音频检索概览

3.1.1 音频信号及特点

3.1.2 同源音频检索框架

3.1.3 同源音频检索关键技术

3.2 基于MFCC音频特征的同源音频检索框架

3.2.1 MFCC音频特征提取

3.2.2 希尔伯特空间填充曲线

3.2.3 基于希尔伯特索引的相似性检索技术

3.3 基于差分能量特征的同源音频检索框架

3.3.1 差分能量特征提取

3.3.2 特征匹配算法

3.4 实验结果与分析

3.4.1 测试数据

3.4.2 测试结果和分析

3.5 本章小结

第四章同源音视频融合检索算法

4.1 音视频融合检索算法

4.2 TRECVID2010评测及结果分析

4.2.1 音视频变换类型及实验数据

4.2.2 评测标准及参数

4.2.3 评测结果比较与分析

4.3 本章小结

第五章总结与展望

5.1 论文总结

5.2 未来工作展望

参考文献

致谢

作者攻读硕士学位期间发表的学术论文

基于内容的同源音频和视频检索

论文摘要

论文目录

相关论文文献

猜你喜欢