基于Lucene和HTML Parser技术的搜索引擎的设计与实现

基于Lucene和HTML Parser技术的搜索引擎的设计与实现

论文摘要

Internet上的信息量不断的增长内容变的冗余复杂,在这种情况下搜索引擎成为人们在网上获取所需信息的必要工具。可是传统的搜索引擎检索到的信息量也是极为庞杂的,用户很难在短时间内查找出所需的东西,垂直搜索引擎技术专业化和深入化的特性弥补了这方面的不足。本文以“手机产品信息垂直搜索引擎”研究为背景,对以下三个关键问题进行了深入的研究。第一个是网页文本解析的问题,HTMLParser技术对网络机器人抓取后的网页内容进行高效率的解析,高效的完成信息进行再一次整合,很好的解决了垂直搜索引擎所需数据来源问题。第二个是数据库中数据的索引、优化、和排序的问题,本系统基于Lucene技术对数据进行操作,同时建立了检索关键字的词库,解决了搜索引擎检索效率较低的问题。第三个是系统的框架问题,通过Spring框架来进行系统的后台管理,很好的实现了搜索引擎的功能。目前,该系统已经能够运行且效果良好达到了实践的目的。在一定的程度上达到了信息搜索优化的目的,与通用的搜索引擎相比信心检索的效率有了很大的提高。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 搜索引擎技术
  • 1.3 论文中所应用的主要技术
  • 1.4 论文的主要研究内容和结构
  • 第二章 HTMLParser技术
  • 2.1 HTML基础知识
  • 2.2 HTMLParser技术的研究
  • 2.3 小结
  • 第三章 Spring框架与Lucene技术的研究
  • 3.1 Spring框架的研究
  • 3.1.1 Spring 的结构
  • 3.1.2 Spring框架的优越性
  • 3.1.3 Spring 2.0 的新特性
  • 3.2 Lucene技术
  • 3.2.1 Lucene的基本概念
  • 3.2.2 Lucene的分词技术
  • 3.2.3 Lucene的系统组织结构
  • 3.2.4 Lucene的优点
  • 3.3 小结
  • 第四章 搜索引擎工程的框架与功能分析
  • 4.1 搜索引擎系统的总体架构
  • 4.1.1 系统的功能结构
  • 4.1.2 系统的具体功能实现步骤
  • 4.1.3 系统用例图及注释
  • 4.1.4 功能交互时序图
  • 4.2 小结
  • 第五章 搜索引擎功能的实现
  • 5.1 系统开发的平台及工具
  • 5.1.1 系统开发工具
  • 5.1.2 工程的创建步骤
  • 5.1.3 系统运行平台
  • 5.2 系统的详细设计
  • 5.2.1 解析网页信息类
  • 5.2.2 数据装载类
  • 5.2.3 数据库的相关操作
  • 5.3 搜索引擎的服务平台
  • 5.3.1 搜索服务平台
  • 5.3.2 搜索服务平台的交互界面
  • 5.4 测试结果
  • 5.5 系统整体性能的分析
  • 5.6 小结
  • 第六章 总结与展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].基于HTML Parser的BBS信息抽取系统的设计与实现[J]. 自动化技术与应用 2012(01)
    • [2].基于HTML Parser的网页信息提取技术研究[J]. 西藏大学学报(自然科学版) 2010(01)

    标签:;  ;  ;  

    基于Lucene和HTML Parser技术的搜索引擎的设计与实现
    下载Doc文档

    猜你喜欢