论文摘要
互联网作为人类最重要的信息来源,“信息迷航”和“信息过载”已经成为日益严重的问题。基于Internet的各类搜索引擎应运而生,并得到了迅速发展。传统的通用搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定的专业信息时,通用搜索引擎系统有时就显得力不从心。面向主题的搜索引擎是一种分类细致精确、更新及时的搜索引擎,正成为信息搜索技术研究中的研究热点与发展趋势。本文以用户对数码产品搜索需求为研究背景,采用垂直搜索理念和技术,将国内互联网上的数码产品网站中的数码产品信息内容作为采集对象,在开源的全文检索工具软件包Lucene的基础上,研究和实现了对数码产品信息具有专业化搜索功能的搜索引擎。主要工作如下:1.在对数码产品搜索业务分析的基础上,分析并确定了系统的基本功能需求和最终目标,运用UML分析设计技术和系统三层架构思想,详细论述了系统的功能设计和数据库设计以及系统数据备份策略。2.对基于Java的Lucene全文搜索引擎所提供的索引功能和检索功能进行了深入分析,以此为基础建立搜索引擎的索引器和检索器。3.在设计的采集器中加入了主题预测算法,使其适合于主题搜索引擎。4.对Lucene中的原排序算法进行了改进,提高检索结果的质量。5.以WindowsXP+Tomcat+JSP+MySQL为开发环境,设计和实现了数码产品垂直搜索引擎核心模块。实践表明,本文设计和实现的数码产品垂直搜索引擎的方案是切实可行的,系统基本达到了预期的设计目标。
论文目录
中文摘要Abstract第一章 绪论1.1 选题背景1.2 研究意义1.3 本文的研究内容1.4 本文的结构安排第二章 搜索引擎相关技术2.1 搜索引擎概述2.1.1 历史及发展趋势2.1.2 搜索引擎分类2.1.3 性能评价指标2.2 搜索引擎工作原理2.2.1 基本结构及原理2.2.2 采集器2.2.3 索引器2.2.4 检索器2.2.5 用户接口2.3 垂直搜索引擎技术分析2.3.1 系统结构2.3.2 垂直搜索引擎的网络爬虫2.3.3 主题预测算法2.4 本章小结 第三章 全文检索引擎 Lucene 分析与研究3.1 Lucene 软件包简介3.2 基于 Lucene 的索引器设计3.2.1 Lucene 文件格式中定义的数据类型3.2.2 Lucene 索引文件的逻辑结构3.2.3 Lucene 索引文件的物理结构3.2.4 Lucene 倒排索引原理3.2.5 Lucene 的全文检索3.3 Lucene 检索结果排序算法的改进3.3.1 原排序算法3.3.2 算法的改进3.4 本章小结第四章 数码产品垂直搜索引擎的分析与设计4.1 数码产品垂直搜索引擎系统需求分析4.1.1 业务分析4.1.2 基本功能需求分析4.1.3 基本性能需求分析4.2 数码产品垂直搜索引擎体系结构4.3 数码产品垂直搜索引擎关键功能设计4.3.1 采集器的设计4.3.2 索引器的设计4.3.3 检索器的设计4.3.4 权限管理设计4.3.5 备份与恢复4.4 本章小结第五章 数码产品垂直搜索引擎的实现5.1 开发环境及相关技术5.1.1 JSP 技术5.1.2 MySQL 数据库技术5.1.3 Tomcat 服务器技术5.2 采集器的实现5.2.1 采集器程序流程5.2.2 额外的策略5.2.3 采集器类设计5.3 索引器的实现5.3.1 系统索引的建立5.3.2 索引的优化5.4 检索器的实现5.4.1 搜索的实现5.4.2 改进的检索结果排序算法实现5.4.3 搜索优化5.5 系统运行结果及性能分析5.5.1 数码产品搜索引擎首页5.5.2 搜索结果页面5.5.3 网友社区首页5.5.4 系统性能测试5.5.5 系统性能评估5.6 本章小结第六章 结论与展望6.1 系统总结6.2 不足与展望参考文献攻读硕士学位期间参加的科研项目和发表(录用)的论文致谢详细摘要
相关论文文献
标签:搜索引擎论文; 垂直搜索论文; 排序算法论文; 采集器论文;
基于Lucene的数码产品垂直搜索引擎的设计与实现
下载Doc文档