论文摘要
近年来,随着Internet的发展和普及,网络带宽逐步提高,进而推动了在线视频的发展。在线视频行业已经超过搜索、网络新闻,成为第一大互联网应用,是人们获取电影、电视剧、综艺节目等数字内容的重要媒介。随着网络视频数量急剧增加,人们想要获取他们感兴趣的视频内容变得越来越困难。虽然通用搜索能够帮助人们搜索视频,但是它在精准度、专业性、深度方面远远不能满足用户的需求。因此,视频垂直搜索引擎已经成为当前搜索引擎发展的一个重要方向。通常,一个完整的视频垂直搜索引擎可以分为五个模块:爬虫模块、数据存储与工具模块、网页信息抽取模块、索引模块、前端搜索界面模块。本文主要内容是设计并实现视频网页信息抽取与存储系统,即以上模块中的中间三个。本文首先介绍视频网页信息抽取与存储系统开发的背景、主要研究内容。接下来,对视频网页信息抽取与存储系统涉及到相关技术进行详细分析与研究,包括搜索引擎、网页信息抽取技术、Lucene、Solr、中文分词等。然后,详细阐述了视频网页信息抽取与存储系统的设计与实现。最后,对整个系统进行功能和性能测试。通过对整个系统进行测试与运行,本文所设计的视频信息抽取与存储系统能够快速准确的采集视频信息,存储到数据库,建立索引。用户可以方便、快捷、准确的搜索到他们感兴趣的视频,达到了设计的初衷。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题背景与意义1.2 课题主要内容1.3 论文组织结构第二章 关键技术分析与研究2.1 搜索引擎2.1.1 搜索引擎概念2.1.2 搜索引擎原理2.1.3 搜索引擎分类2.1.4 搜索引擎评价指标2.2 网页信息抽取技术2.2.1 HTML2.2.2 DOM2.2.3 Jsoup2.3 LUCENE2.3.1 Lucene整体架构2.3.2 Lucene索引机制2.3.3 Lucene搜索机制2.4 SOLR2.4.1 Solr整体架构2.4.2 Solr原理与用法2.4.3 Solr应用情况2.5 中文分词2.6 MYSQL2.7 本章小结第三章 视频网页信息抽取与存储系统的分析与设计3.1 系统需求分析3.2 系统架构设计3.3 功能模块设计3.3.1 数据存储模块3.3.2 网页信息抽取模块3.3.3 索引模块3.4 数据库设计3.5 本章小结第四章 视频网页信息抽取与存储系统的实现4.1 系统开发环境4.2 数据存储模块的实现4.2.1 文件操作模块4.2.2 数据存储模块4.2.3 影片信息归一化模块4.3 网页信息抽取模块的实现4.3.1 视频信息抽取模块4.3.2 网页信息抽取调度模块4.3.3 关联模块4.3.4 URL有效性验证模块4.4 索引模块的实现4.5 本章小结第五章 运行与测试5.1 实验场景设置5.2 功能测试5.3 性能测试5.3.1 网页信息抽取模块性能测试5.3.2 索引模块性能测试5.3.3 URL有效性验证模块性能测试5.4 本章小结第六章 总结与展望6.1 论文总结6.2 未来工作展望参考文献致谢攻读学位期间发表的学术论文和科研情况
相关论文文献
标签:视频垂直搜索论文; 信息抽取论文;