论文摘要
垂直搜索引擎是针对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出来的新的搜索引擎服务模式。本文在查阅了大量的国内外文献的基础上,对垂直搜索引擎的系统结构、工作原理、搜索策略、链接去重和网页更新等关键技术和主要算法进行了深入的学习和研究。重点讨论了垂直搜索引擎数据采集系统的搜索策略和主题相关性算法,并对链接去重和网页更新等算法进行了改进,在此基础上对垂直搜索引擎进行了总体设计,设计实现了一个电子商务垂直搜索引擎的信息采集系统。实验结果表明,该系统具有较高的采集效率,采集的页面具有较好的主题相关度,达到了预期的设计目标。该系统具有较好的实用价值和应用前景。
论文目录
摘要ABSTRACT第一章 引言1.1 选题背景及意义1.2 国内外研究现状1.3 本文的工作与创新第二章 搜索引擎概述2.1 搜索引擎的分类2.1.1 通用搜索引擎2.1.2 目录搜索引擎2.1.3 元搜索引擎2.2 垂直搜索引擎2.2.1 垂直搜索引擎的出现2.2.2 垂直搜索引擎的特点2.2.3 面向主题的数据采集2.3 搜索引擎的工作原理第三章 系统的总体设计3.1 搜索引擎的系统结构3.2 数据采集系统的系统结构3.2.1 信息获取器3.2.2 网页去重器3.2.3 URL 抽取器3.2.4 数据存储模块3.3 面临的主要问题及对策3.4 系统设计目标第四章 系统搜索策略的研究4.1 基于内容评价的搜索策略4.1.1 Fish Search 算法4.1.2 Shark Search 算法4.2 基于链结构特征的搜索策略4.2.1 主题页面的分布特征4.2.2 PageRank 算法4.2.3 HITS 算法4.2.4 PageRank 与HITS 算法的比较第五章 系统的设计与实现5.1 robot 协议处理5.2 链接处理模块5.2.1 超链接的抽取5.2.2 无效链接的过滤5.2.3 链接的评价与选择5.2.4 基于散列技术的去重策略5.3 页面处理模块5.3.1 页面的评价与过滤5.3.2 页面的去重策略5.3.3 页面的存储方式5.3.4 基于“链接比”概念的更新策略5.4 多线程技术的应用5.5 使用网络代理第六章 实验结果与评价6.1 性能评价指标6.2 测试环境6.3 测试结果与评价第七章 总结与展望参考文献致谢在学期间发表的学术论文和参加科研情况
相关论文文献
标签:垂直搜索引擎论文; 主题爬虫论文; 网络蜘蛛论文;