
论文摘要
搜索引擎是互联网检索技术的核心,随着互联网的迅速发展,目前综合搜索引擎已无法满足用户的需求,这就成就了垂直搜索引擎的蓬勃发展,但处于发展初期的垂直搜索引擎还有许多不足之处,虽然它是更有针对性的搜索引擎,而且只搜索特定主题的信息,但并不排除一些垃圾页面对它的影响,本课题针对能够抗击垃圾页面的垂直搜索引擎进行研究。首先,为了提高搜索引擎的搜索精度,必须清除垃圾页面对其结果的影响。目前页面隐藏技术广泛应用于各类网页,使搜索精度大大降低,而互联网上HTML文本格式的网页占全部网页的绝大部分。通过研究页面隐藏技术的种种形式,分析页面的HTML源代码,设计一种算法检测这种类型的垃圾页面。其次,研究搜索引擎的页面排序算法PageRank。PageRank是用来计算网页重要性的一种排序算法,是用来衡量一个网站好坏的标准。由于该算法在计算过程中没有考虑垃圾页面对网页排序结果的影响,从而导致最终网页的排序不公平。为了使排序公正,修改了PageRank算法,通过给垃圾页面加不同的权值,使其在计算过程中为垃圾页面及其链接页面传递较低的Pr值。最后,利用Heritrix,Lucene和Nutch等开源工具构造能够抗击垃圾页面的垂直搜索引擎,先从互联网抓取页面,然后进行垃圾页面检测,清除部分垃圾页面再建立索引文件,在页面排序过程中使用改进的PageRank算法,使得排序结果更加公正,然后应用该搜索引擎进行实验,通过对比观察,检验搜索效果。
论文目录
摘要Abstract第1章 绪论1.1 课题背景及意义1.2 国内外的研究状况1.2.1 垃圾页面的检测1.2.2 搜索引擎页面排序算法的研究1.2.3 搜索引擎的研究现状及发展趋势1.2.4 垃圾页面检测及排序算法研究存在的问题1.3 本文的主要研究内容1.4 本文的组织结构第2章 相关技术介绍2.1 垃圾页面的相关介绍2.1.1 垃圾页面的目的2.1.2 垃圾页面的类型2.1.3 垃圾页面对搜索引擎的影响2.2 页面排序算法的相关介绍2.2.1 PageRank 算法原理2.2.2 HITS 算法原理2.3 垂直搜索引擎的相关介绍2.3.1 垂直搜索引擎的产生背景2.3.2 垂直搜索引擎的概念2.3.3 垂直搜索引擎的技术特点2.3.4 垂直搜索引擎结构2.4 本章小结第3章 基于页面隐藏技术的垃圾页面检测算法3.1 页面隐藏技术3.2 HTML 标签树的构造3.2.1 HTML 文件预处理3.2.2 HTML 文件存放的数据结构3.3 页面隐藏垃圾页面的检测算法3.4 实验与结果分析3.4.1 实验数据集3.4.2 评价标准3.4.3 实验结果3.5 本章小结第4章 抗击链接垃圾页面的PageRank 改进算法4.1 PageRank 算法4.1.1 PageRank 算法原理4.1.2 PageRank 算法的实现4.2 垃圾页面检测与PageRank 算法改进4.2.1 抗击链接农场的Truncated PageRank 算法4.2.2 链接垃圾页面的检测方法4.2.3 抗击链接垃圾页面的PageRank 算法4.3 实验与结果分析4.3.1 模拟数据集4.3.2 实验结果分析4.4 本章小结第5章 抗击垃圾页面的垂直搜索引擎设计5.1 搜索引擎相关技术5.1.1 搜索引擎的主要技术5.1.2 搜索引擎的评价标准5.2 构造垂直搜索引擎的开源工具介绍5.2.1 全文检索引擎Lucene5.2.2 开源搜索引擎Nutch5.2.3 网络爬虫Heritrix5.3 抗击垃圾页面的垂直搜索引擎设计5.3.1 抗击垃圾页面的垂直搜索引擎体系结构5.3.2 系统设计分析5.4 抗击垃圾页面的垂直搜索引擎性能分析5.4.1 页面集5.4.2 实验环境及实验步骤5.4.3 实验结果分析5.5 本章小结结论参考文献攻读硕士学位期间承担的科研任务与主要成果致谢作者简介
相关论文文献
标签:垃圾页面论文; 页面隐藏论文; 垂直搜索引擎论文;