论文摘要
随着互联网的发展,越来越多的人能够方便快捷地接触到数字媒体,多媒体数据已经成为互联网信息高速公路上传输的主要内容。人们所面临的主要问题是如何在浩如烟海的多媒体数据中找到自己所需要的信息。基于内容的音视频检索是视频检索领域的新热点,它对音视频由底层到高层分步进行分析,从中对音视频的内容进行描述并对这个内容进行检索。作为基于内容的视频检索的一个特殊应用,基于内容的音视频版权检索正在引起人们越来越高的关注。同源音视频检索的主要应用领域有:音视频的版权保护以及对特定的音视频内容进行监控。本文分别从图像序列和语音信号两个方面着手,着眼于检索的效率和精度两个主要问题,设计并实现了同源的音频和视频检索两套系统,主要工作如下:在视频检索方面,我们突破了运算量的瓶颈,使用并行运算集群训练了一个5万维的视觉字典,大大提高了索引的精度。之后,为该大规模视觉字典设计了一种二级码书投影方法,进一步提高了索引的效率。最后,为了优化数据库中数据的访问速度,我们根据视觉字典的索引设计并实现了倒排索引的数据存储结构。在音频检索方面,基于不同的音频特征,提出了两种检索方法。首先提出了基于传统MFCC音频特征及希尔伯特曲线索引的检索框架。其后又提出了一种名为差分能量特征的音频指纹,并为之设计了哈希索引的音频检索系统。对两种框架进行了性能比较,最终选定后者实现音频检索。最后,本文对音视频检索两套系统进行融合,参加TRECVID2010同源视频和音频检索的评测。结果表明,本系统的整体性能高于所有参赛队的平均水平,这也验证了本系统的有效性。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题研究背景和意义1.2 国内外相关研究进展1.3 TRECVID测评1.4 本文的工作和安排1.4.1 主要研究内容1.4.2 论文结构安排第二章 基于内容的同源视频检索2.1 同源视频检索概述2.1.1 同源视频检索定义2.1.2 同源视频检索体系架构2.1.3 同源视频检索框架2.1.4 同源视频检索关键技术2.2 同源视频检索特征选取2.2.1 尺度不变性和旋转不变性2.2.2 SIFT特征提取2.3 同源视频检索索引结构2.3.1 K均值聚类算法2.3.2 基于并行计算集群的码书训练2.3.3 二级码书2.3.4 特征样本投影2.3.5 进制签名2.3.6 匹配的辅助条件2.3.7 倒排索引文件2.4 同源视频检索特征匹配策略2.4.1 关键点间的相似性度量2.4.2 视频帧间的相似性度量2.4.3 视频间的相似性度量2.4.4 匹配段的定位2.5 实验结果与分析2.5.1 测试数据2.5.2 测试结果和分析2.6 本章小结第三章 基于内容的同源音频检索3.1 同源音频检索概览3.1.1 音频信号及特点3.1.2 同源音频检索框架3.1.3 同源音频检索关键技术3.2 基于MFCC音频特征的同源音频检索框架3.2.1 MFCC音频特征提取3.2.2 希尔伯特空间填充曲线3.2.3 基于希尔伯特索引的相似性检索技术3.3 基于差分能量特征的同源音频检索框架3.3.1 差分能量特征提取3.3.2 特征匹配算法3.4 实验结果与分析3.4.1 测试数据3.4.2 测试结果和分析3.5 本章小结第四章 同源音视频融合检索算法4.1 音视频融合检索算法4.2 TRECVID2010评测及结果分析4.2.1 音视频变换类型及实验数据4.2.2 评测标准及参数4.2.3 评测结果比较与分析4.3 本章小结第五章 总结与展望5.1 论文总结5.2 未来工作展望参考文献致谢作者攻读硕士学位期间发表的学术论文
相关论文文献
标签:同源音频和视频检索论文; 视觉字典论文; 并行训练论文; 倒排索引论文;