基于Lucene的网页抓取与检索系统

基于Lucene的网页抓取与检索系统

论文摘要

随着网络的发展和Web资源的丰富,利用Web全文信息检索系统来获取所需信息已经成为人们日常生活的重要组成部分,用户也越来越关注如何能够更加准确、高效地查找信息。本文对Web信息检索和系统实现的相关理论与技术作了介绍,对信息检索在Web全文信息检索中的应用进行了较深入的实践。在第二章,介绍了论文的相关的理论,如搜索引擎的种类,中文分词的方法,倒排索引的理论和本论文之中所用到的Lucene的理论与使用方法,在第三章,根据网页的特点,提出两种网页模板的分析算法,第一种算法基于最长公共子序列模型,利用动态规划的方法求出最优解,对于原文献的算法的进行了优化和扩展,以达到求出网页模板字符串和被插入字符串的目的,第二种算法利用统计学的相关理论与原理,将网页模板抽象成为一个数学模型,提取出网页的常见标识在网页的开始位置与结束位置,根据正文的长度的不同算出不同的方差,确定正文在原文之中的位置,从而可以从网页之中提取出正文的内容,以达到节省空间和减少建立索引与搜索索引的时间的目的,最后比较了两种算法的优点与缺点。在第四章中,介绍了一个利用Java开发的网络蜘蛛,其中包括异构的数据的处理,例如word, pdf, rtf等文件的内容的提取,另外介绍了一种HTML文件解析方法和多线程的使用。在第五章,实现了一个网页抓取系统,自动地从互联网下载用户所指定的网页的信息,包括内容与下一页,为了提高信息检索的效率,利用Lucene软件包,建立全文检索,加快了搜索的速度,提高了信息的准确性和时效性,节省了大量的存储空间。本文从理论和实际的角度出发,既有算法的设计与分析,也有具体的程序的实现,使用了Oracle, Tomcat, Jsp, Java, Eclipse, Lucene等软件和语言,独创一个HTML的解析方法,为用户节省时间,提高了工作效率。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景
  • 1.2 课题的内容与意义
  • 1.3 本人所做的工作
  • 1.4 论文结构
  • 第2章 论文相关理论
  • 2.1 搜索引擎的相关理论
  • 2.1.1 搜索引擎定义
  • 2.1.2 搜索引擎的特点
  • 2.1.3 搜索引擎的分类
  • 2.2 中文分词技术
  • 2.2.1 单字分词
  • 2.2.2 双字分词
  • 2.2.3 基于词典的分词技术
  • 2.3 文本搜索
  • 2.3.1 文本搜索概述
  • 2.3.2 英文文本处理方式
  • 2.3.3 倒排索引
  • 2.4 Lucene介绍与源码分析
  • 2.4.1 Lucene概述
  • 2.4.2 Lucene建立索引
  • 2.4.3 Lucene分词器(Analyzer)
  • 第3章 网页模板的提取
  • 3.1 网页模板
  • 3.2 网页模板的作用
  • 3.3 问题的提出
  • 3.4 问题模型与求解
  • 3.4.1 初步模型
  • 3.4.2 最长公共子序列模型
  • 3.4.3 统计模型
  • 3.5 模型总结
  • 第4章 网络蜘蛛原理与设计
  • 4.1 网络蜘蛛
  • 4.1.1 网络蜘蛛的基本原理
  • 4.1.2 企业级搜索引擎的网络蜘蛛
  • 4.2 内容提取
  • 4.3 利用Java语言开发网络蜘蛛
  • 4.3.1 Java网络蜘蛛的优点
  • 4.3.2 基于Java的网络蜘蛛的构成
  • 4.4 利用Lucene进行检索
  • 4.4.1 索引那些字段?
  • 4.4.2 建立索引
  • 4.4.3 搜索
  • 4.5 小结
  • 第5章 互联网信息抓取系统设计与实现
  • 5.1 系统介绍
  • 5.2 系统基本设计
  • 5.2.1 硬件连接图
  • 5.2.2 数据流向图
  • 5.3 软件模块设计概述
  • 5.3.1 网页抓取程序
  • 5.3.2 WEB服务器
  • 5.3.3 Lucene的使用
  • 5.4 小结
  • 第6章 结束语
  • 6.1 本文总结
  • 6.2 进一步的工作
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于Lucene的电网主厂站遥信信号自动对比验收技术研究与应用[J]. 电气传动自动化 2020(02)
    • [2].基于Lucene的垂直搜索引擎的设计与实现[J]. 福建电脑 2015(12)
    • [3].一个基于Lucene的维文搜索引擎的设计与实现[J]. 福建电脑 2015(05)
    • [4].基于Lucene的试卷查重系统设计与实现[J]. 信息技术与信息化 2016(05)
    • [5].Lucene框架下构建高校校园网搜索引擎[J]. 电脑知识与技术 2013(11)
    • [6].实现Lucene接口的中文分词器的比较研究[J]. 科技信息 2012(12)
    • [7].基于Lucene全文检索在网络舆情的研究[J]. 信息安全与通信保密 2012(09)
    • [8].基于Lucene的高校图书垂直搜索引擎的研究与实现[J]. 太原师范学院学报(自然科学版) 2011(04)
    • [9].基于Lucene的全文检索构件的研究与实现[J]. 计算机应用与软件 2010(02)
    • [10].基于LUCENE的站内搜索的研究与实现[J]. 河北软件职业技术学院学报 2009(01)
    • [11].基于LUCENE的藏文全文检索的研究[J]. 西藏大学学报(自然科学版) 2009(01)
    • [12].基于本体和Lucene的语义检索模型设计与实现[J]. 现代电子技术 2009(12)
    • [13].基于Lucene的全文搜索引擎[J]. 现代计算机(专业版) 2009(11)
    • [14].基于Lucene技术的垂直搜索引擎的研究[J]. 软件导刊 2008(03)
    • [15].Lucene架构下布尔查询的执行计划研究[J]. 云南民族大学学报(自然科学版) 2019(06)
    • [16].基于Lucene引擎构建在线地址匹配服务[J]. 测绘与空间地理信息 2016(02)
    • [17].基于Lucene的中文分词系统设计与实现[J]. 自动化与仪器仪表 2016(05)
    • [18].基于Lucene的图像检索实验设计[J]. 实验室研究与探索 2013(10)
    • [19].基于Lucene的全文搜索排序算法的研究与改进[J]. 武汉纺织大学学报 2013(06)
    • [20].基于Lucene的校园网智能搜索引擎的设计与实现[J]. 现代电子技术 2013(06)
    • [21].基于本体和Lucene的网络教育资源管理检索系统[J]. 计算机应用与软件 2012(07)
    • [22].Lucene排序算法的研究和改进[J]. 中国新技术新产品 2011(04)
    • [23].Lucene的全文检索的研究与应用[J]. 计算机技术与发展 2010(02)
    • [24].构建基于Lucene的网站站内搜索[J]. 信息与电脑(理论版) 2010(04)
    • [25].一种基于Lucene的中文分词的设计与测试[J]. 信息技术 2010(12)
    • [26].基于Lucene的企业信息门户搜索引擎设计[J]. 微处理机 2009(04)
    • [27].基于Lucene的电子文档管理系统的设计与实现[J]. 科学时代 2008(02)
    • [28].基于Lucene的语义检索系统的设计和实现[J]. 计算机工程与设计 2008(20)
    • [29].浅谈Lucene开发包技术[J]. 科技风 2012(23)
    • [30].基于Lucene的个性化搜索引擎研究与实现[J]. 计算机技术与发展 2011(02)

    标签:;  ;  ;  ;  

    基于Lucene的网页抓取与检索系统
    下载Doc文档

    猜你喜欢