多模态视频信息检索

多模态视频信息检索

论文摘要

随着多媒体技术以及互联网应用的迅速发展,多媒体数据量特别是视频数据量呈现爆炸式地增长,找到一种行之有效的视频检索方法越来越成为一种必须。高效的视频检索技术能够极大的帮助人们在因特网上进行数字娱乐,提高人们的生活品质。基于网页文本的检索技术目前已经比较成熟,百度和google已经提供了可靠的在线检索功能帮助人们在网络上检索相关文本内容。相对于文本而言,视频数据的组成结构比较复杂,结构上按粒度从大到小可以分为:幕,场景,镜头,帧,此外视频本身还带有图像,声音以及文本等多种特征信息,由此带来了视频分析处理本身的复杂性,如何有效的进行视频检索也成了难题。事实上通过合理的利用这些存在于视频中的各种特征信息可以有效的帮助人们进行视频检索,找到想要的内容。迄今很多视频检索方法被提出来,早期的人们通过单独利用视频中挖掘出的图像或文本等特征进行相关检索。基于文本特征的检索能够保证检索结果有较好的召回率而基于图像特征的检索对具有明显图像特征的查询主题有不错的效果;从整体来说,单一的使用某种特征方式下的检索,实际效果还不是很理想,于是人们考虑到将各种特征信息结合起来使用,利用各种特征信息不同的检索优势并且配合机器学习技术的使用以提高视频检索的性能。于是根据每种特征信息可以建立单独的子检索模块,而现阶段的很多研究着眼于如何利用机器学习技术帮助训练融合各子检索模块上。虽然人们采用了很多方法来训练学习视频检索引擎,但是当前的视频检索技术能达到的性能还不是很理想。主要原因在于没能充分的挖掘出视频中蕴含的各种信息,在这种情况下只考虑机器学习方面的研究,并不能从本质上提高视频检索的性能。我们的算法从视频内容本身出发,着眼于从视频本身挖掘出更多有用的资源信息然后将这些信息加以融合来提高视频检索的精度。只有充分的挖掘出视频本身的各种特征信息以及这些信息之间的相关联系,才能真正的提高视频检索的性能提高。考虑到充分利用视频本身蕴含的各种特征信息,本文提出了一种新的多模态检索模型,基于这个模型我们实现了相应的手动式搜索和交互式搜索的算法方案。我们以一年一度的TRECVID视频处理比赛作为我们算法的实验平台,实验结果也证明了我们算法的有效性。本文主要围绕提出的多模态检索模型做出了相关介绍,给出了详细的实验数据,并对未来视频检索的研究做出了展望。

论文目录

  • 目录
  • 摘要
  • ABSTRACT
  • 第一章 研究背景
  • 1.1 多媒体信息检索
  • 1.2 视频检索
  • 1.2.1 视频结构化分析
  • 1.2.2 视频检索粒度及查询方式
  • 1.2.3 TRECVID介绍
  • 1.3 本文的贡献
  • 第二章 视频检索研究以相关处理技术
  • 2.1 相关视频处理技术
  • 2.1.1 图像特征提取
  • 2.1.2 镜头分割及关键帧提取
  • 2.1.3 OCR文字提取
  • 2.1.4 ASR语音文字识别
  • 2.1.5 文本处理技术
  • 2.1.6 图像高层语义提取
  • 2.1.7 音频信息
  • 2.2 视频检索相关研究
  • 2.3 本文的工作
  • 2.4 本章小结
  • 第三章 多模态视频检索模型
  • 3.1 多模态视频检索模型框架
  • 3.2 模块分析
  • 3.2.1 查询输入模块
  • 3.2.2 文本检索模块
  • 3.2.3 图像检索模块
  • 3.2.4 语义检索模块
  • 3.2.5 结果融合模块
  • 3.2.6 特定语义过滤模块
  • 3.2.7 本体过滤模型
  • 3.2.8 结果输出模块
  • 3.2.9 交互式学习模块
  • 3.3 本章小结
  • 第四章 查询主题分析
  • 4.1 查询主题分类
  • 4.2 查询主题分类的使用
  • 4.3 本章小结
  • 第五章 实验分析
  • 5.1 TRECVID评测标准
  • 5.2 TRECVID 2005实验分析
  • 5.3 TRECVID 2006实验分析
  • 5.4 TRECVID 2007实验分析
  • 5.5 本章小结
  • 第六章 展望与总结
  • 附录一 硕士期间发表的论文
  • 附录二 硕士期间主要工作
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].多模态隐喻浅析土味情话——基于综艺节目《非常完美》男女嘉宾对话[J]. 海外英语 2019(22)
    • [2].网络多模态环境下大学生外语学习焦虑及干预策略[J]. 海外英语 2019(21)
    • [3].多模态教学模式在大学英语词汇教学中的应用[J]. 信阳农林学院学报 2019(04)
    • [4].互动构建的时空延展和情感变迁——电子哀悼多模态语类特征[J]. 天津外国语大学学报 2020(01)
    • [5].西安城市形象广告语篇的多模态意义构建[J]. 北极光 2019(12)
    • [6].多模态隐喻的前沿理论研究:问题与展望[J]. 阜阳师范学院学报(社会科学版) 2019(06)
    • [7].4~5岁汉语儿童否定行为的多模态表征特点[J]. 学前教育研究 2020(01)
    • [8].二语视听多模态输入研究述评[J]. 云南师范大学学报(对外汉语教学与研究版) 2020(01)
    • [9].美国政治漫画中的多模态隐喻构建与批评分析——以中美贸易冲突为例[J]. 外语研究 2020(01)
    • [10].多模态教学在来华留学生中国概况课程中的实践与应用[J]. 教育观察 2019(32)
    • [11].移动互联网环境下的多模态教学模式实践研究——以“公共关系学”课程为例[J]. 黑龙江教育(高教研究与评估) 2019(12)
    • [12].基于多模态知识感知注意力机制的问答方法[J]. 计算机研究与发展 2020(05)
    • [13].多模态学习方法综述[J]. 工程科学学报 2020(05)
    • [14].多模态隐喻理论视域下的电影主题构建——以电影《寄生虫》为例[J]. 科技传播 2020(08)
    • [15].电商平台中商品多模态话语的语言学分析与优化建议——以淘宝中某商品为例[J]. 普洱学院学报 2020(02)
    • [16].多模态学习分析:学习分析研究新生长点[J]. 电化教育研究 2020(05)
    • [17].双重视角下国内广告多模态语篇研究[J]. 海南热带海洋学院学报 2020(03)
    • [18].基于英语新闻语料的思辨听力多模态教学模式探究[J]. 赤峰学院学报(汉文哲学社会科学版) 2020(06)
    • [19].多模态视角下国家形象的话语构建研究——以《中国国家形象宣传片》为例[J]. 牡丹江大学学报 2020(06)
    • [20].秦腔剧本英译的多模态化与意义重构——以《杨门女将》英译本为例[J]. 西安外国语大学学报 2020(02)
    • [21].书面学术语篇多模态关系研究[J]. 西安外国语大学学报 2020(02)
    • [22].中美大学校徽多模态隐喻对比分析——以中美名校校徽为例[J]. 大众文艺 2020(12)
    • [23].信息化时代外语学习者的多模态识读能力培养[J]. 福建师大福清分校学报 2020(03)
    • [24].多模态教学 多维度思考——多模态教学模式应用于小学英语教学的思考与实践[J]. 中国农村教育 2020(17)
    • [25].新媒体语境下国家领导人形象多模态建构的场域解读——以时政微视频《人民领袖》为例[J]. 安徽理工大学学报(社会科学版) 2020(03)
    • [26].多模态情感分析研究综述[J]. 模式识别与人工智能 2020(05)
    • [27].多模态隐喻与“一带一路”话语体系建构——评析大型纪录片《一带一路》第一集《共同命运》[J]. 外国语文 2020(03)
    • [28].应用型本科院校商务英语翻译多模态教学模式创新研究[J]. 高教学刊 2020(23)
    • [29].国家形象宣传片的多模态话语形式及关系研究[J]. 湖北开放职业学院学报 2020(17)
    • [30].《特别响,非常近》中英封面之多模态对比分析[J]. 江苏理工学院学报 2020(03)

    标签:;  ;  ;  ;  ;  ;  

    多模态视频信息检索
    下载Doc文档

    猜你喜欢