论文摘要
Internet上的信息量不断的增长内容变的冗余复杂,在这种情况下搜索引擎成为人们在网上获取所需信息的必要工具。可是传统的搜索引擎检索到的信息量也是极为庞杂的,用户很难在短时间内查找出所需的东西,垂直搜索引擎技术专业化和深入化的特性弥补了这方面的不足。本文以“手机产品信息垂直搜索引擎”研究为背景,对以下三个关键问题进行了深入的研究。第一个是网页文本解析的问题,HTMLParser技术对网络机器人抓取后的网页内容进行高效率的解析,高效的完成信息进行再一次整合,很好的解决了垂直搜索引擎所需数据来源问题。第二个是数据库中数据的索引、优化、和排序的问题,本系统基于Lucene技术对数据进行操作,同时建立了检索关键字的词库,解决了搜索引擎检索效率较低的问题。第三个是系统的框架问题,通过Spring框架来进行系统的后台管理,很好的实现了搜索引擎的功能。目前,该系统已经能够运行且效果良好达到了实践的目的。在一定的程度上达到了信息搜索优化的目的,与通用的搜索引擎相比信心检索的效率有了很大的提高。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 搜索引擎技术1.3 论文中所应用的主要技术1.4 论文的主要研究内容和结构第二章 HTMLParser技术2.1 HTML基础知识2.2 HTMLParser技术的研究2.3 小结第三章 Spring框架与Lucene技术的研究3.1 Spring框架的研究3.1.1 Spring 的结构3.1.2 Spring框架的优越性3.1.3 Spring 2.0 的新特性3.2 Lucene技术3.2.1 Lucene的基本概念3.2.2 Lucene的分词技术3.2.3 Lucene的系统组织结构3.2.4 Lucene的优点3.3 小结第四章 搜索引擎工程的框架与功能分析4.1 搜索引擎系统的总体架构4.1.1 系统的功能结构4.1.2 系统的具体功能实现步骤4.1.3 系统用例图及注释4.1.4 功能交互时序图4.2 小结第五章 搜索引擎功能的实现5.1 系统开发的平台及工具5.1.1 系统开发工具5.1.2 工程的创建步骤5.1.3 系统运行平台5.2 系统的详细设计5.2.1 解析网页信息类5.2.2 数据装载类5.2.3 数据库的相关操作5.3 搜索引擎的服务平台5.3.1 搜索服务平台5.3.2 搜索服务平台的交互界面5.4 测试结果5.5 系统整体性能的分析5.6 小结第六章 总结与展望致谢参考文献
相关论文文献
- [1].基于HTML Parser的BBS信息抽取系统的设计与实现[J]. 自动化技术与应用 2012(01)
- [2].基于HTML Parser的网页信息提取技术研究[J]. 西藏大学学报(自然科学版) 2010(01)
标签:垂直搜索引擎论文; 搜索引擎论文; 网络机器人论文;
基于Lucene和HTML Parser技术的搜索引擎的设计与实现
下载Doc文档