论文摘要
网站随着内容量的一步一步增加,人们查询信息越来越困难,很多内容在发表之后就很快被湮没,不能被用户找到,成为“信息孤岛”。垂直搜索引擎通过网络搜索软件(又称为网络搜索机器人),收集网站内大量的页面,经过加工处理后建库,从而能够对用户提出的各种查询做出响应,提供用户所需的信息。论文讨论并研究一个垂直搜索引擎所需的基本技术和基本建设过程。通过研究网页抓取技术的中央控制器和核心组件,并且分析需要检索的网站的构架和具体页面布局,相应的完成对网络搜索软件的扩展和定制,成功将设计中要求的网页抓取下来。然后经过网页解析技术处理,具体分析每个页面,剔除网页上由于美观,构架等于原因产生的无用重复的信息,找到网站希望被用户检索到的关键内容。同时基于Lucene开源包为各种内容建立了索引,其中的分词部分是采用在Lucene中文分词组件的基础上加入自己构建的产品字库来完成对中文的分词。最后以DWR为框架设计了一个简易的搜索引擎客户端完成WEB部分提供用户检索。
论文目录
摘要Abstract第一章 绪论1.1 概念1.2 起源及发展1.3 工作原理及方式1.3.1 抓取网页1.3.2 处理网页1.3.3 提供检索服务1.4 发展趋势1.4.1 提高搜索引擎对用户检索提问的理解1.4.2 对检索结果进行处理1.4.3 提高针对性1.5 分类1.5.1 全文索引1.5.2 目录索引1.5.3 元搜索引擎1.5.4 垂直搜索引擎1.6 论文的主要工作和章节安排第二章 网页抓取技术及具体实现2.1 基本原理2.2 使用及注意事项2.2.1 网络蜘蛛的访问控制2.2.2 网络蜘蛛的内容提取2.2.3 网络蜘蛛的更新周期2.3 网络蜘蛛的选择2.4 使用网络蜘蛛抓取网站内容2.4.1 构建下载逻辑2.4.2 下载和运行2.4.3 创建抓取任务2.4.4 设计更新算法第三章 网页解析及实现3.1 网页噪声3.2 网页解析3.2.1 利用HTML 标记分布规律进行解析3.2.2 利用HTML 标记间的关系进行解析3.2.3 利用页面的视觉特征进行解析3.2.4 利用TABLE 标记的布局特性进行解析3.3 实现网页解析3.3.1 对结果的构想3.3.2 设计3.3.3 结果测试第四章 全文检索系统及其索引的建立4.1 什么是全文检索与全文检索系统4.2 中文分词4.2.1 中文分词的概念4.2.2 中文分词技术4.2.3 现有分词简介4.2.4 构建产品信息词库4.3 基于Lucene 的索引及其实现4.3.1 什么是Lucene4.3.2 Lucene 的特点及优势4.3.3 Lucene 系统结构分析4.3.4 Lucene 索引文件格式4.3.5 Lucene 索引构建逻辑模块4.3.6 索引的实现4.3.7 结果测试第五章 搜索系统的WEB 部分5.1 配置文件和各种Beans 类5.2 执行搜索功能的类5.3 页面设计第六章 结论和展望致谢参考文献
相关论文文献
标签:搜索引擎论文; 网页解析论文;
基于Herixtrix和Lucene的Web站内搜索系统
下载Doc文档