视频垂直搜索引擎中信息抽取与存储系统的设计与实现

视频垂直搜索引擎中信息抽取与存储系统的设计与实现

论文摘要

近年来,随着Internet的发展和普及,网络带宽逐步提高,进而推动了在线视频的发展。在线视频行业已经超过搜索、网络新闻,成为第一大互联网应用,是人们获取电影、电视剧、综艺节目等数字内容的重要媒介。随着网络视频数量急剧增加,人们想要获取他们感兴趣的视频内容变得越来越困难。虽然通用搜索能够帮助人们搜索视频,但是它在精准度、专业性、深度方面远远不能满足用户的需求。因此,视频垂直搜索引擎已经成为当前搜索引擎发展的一个重要方向。通常,一个完整的视频垂直搜索引擎可以分为五个模块:爬虫模块、数据存储与工具模块、网页信息抽取模块、索引模块、前端搜索界面模块。本文主要内容是设计并实现视频网页信息抽取与存储系统,即以上模块中的中间三个。本文首先介绍视频网页信息抽取与存储系统开发的背景、主要研究内容。接下来,对视频网页信息抽取与存储系统涉及到相关技术进行详细分析与研究,包括搜索引擎、网页信息抽取技术、Lucene、Solr、中文分词等。然后,详细阐述了视频网页信息抽取与存储系统的设计与实现。最后,对整个系统进行功能和性能测试。通过对整个系统进行测试与运行,本文所设计的视频信息抽取与存储系统能够快速准确的采集视频信息,存储到数据库,建立索引。用户可以方便、快捷、准确的搜索到他们感兴趣的视频,达到了设计的初衷。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景与意义
  • 1.2 课题主要内容
  • 1.3 论文组织结构
  • 第二章 关键技术分析与研究
  • 2.1 搜索引擎
  • 2.1.1 搜索引擎概念
  • 2.1.2 搜索引擎原理
  • 2.1.3 搜索引擎分类
  • 2.1.4 搜索引擎评价指标
  • 2.2 网页信息抽取技术
  • 2.2.1 HTML
  • 2.2.2 DOM
  • 2.2.3 Jsoup
  • 2.3 LUCENE
  • 2.3.1 Lucene整体架构
  • 2.3.2 Lucene索引机制
  • 2.3.3 Lucene搜索机制
  • 2.4 SOLR
  • 2.4.1 Solr整体架构
  • 2.4.2 Solr原理与用法
  • 2.4.3 Solr应用情况
  • 2.5 中文分词
  • 2.6 MYSQL
  • 2.7 本章小结
  • 第三章 视频网页信息抽取与存储系统的分析与设计
  • 3.1 系统需求分析
  • 3.2 系统架构设计
  • 3.3 功能模块设计
  • 3.3.1 数据存储模块
  • 3.3.2 网页信息抽取模块
  • 3.3.3 索引模块
  • 3.4 数据库设计
  • 3.5 本章小结
  • 第四章 视频网页信息抽取与存储系统的实现
  • 4.1 系统开发环境
  • 4.2 数据存储模块的实现
  • 4.2.1 文件操作模块
  • 4.2.2 数据存储模块
  • 4.2.3 影片信息归一化模块
  • 4.3 网页信息抽取模块的实现
  • 4.3.1 视频信息抽取模块
  • 4.3.2 网页信息抽取调度模块
  • 4.3.3 关联模块
  • 4.3.4 URL有效性验证模块
  • 4.4 索引模块的实现
  • 4.5 本章小结
  • 第五章 运行与测试
  • 5.1 实验场景设置
  • 5.2 功能测试
  • 5.3 性能测试
  • 5.3.1 网页信息抽取模块性能测试
  • 5.3.2 索引模块性能测试
  • 5.3.3 URL有效性验证模块性能测试
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 论文总结
  • 6.2 未来工作展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文和科研情况
  • 相关论文文献

    标签:;  ;  

    视频垂直搜索引擎中信息抽取与存储系统的设计与实现
    下载Doc文档

    猜你喜欢