相似网页识别算法的研究与实现

论文摘要

互联网的诞生和发展,深刻的改变着人们的生活,极大地推动着社会的发展与进步,尤为值得一提的是互联网已经成为人们获取信息的一个非常重要的途径,互联网已经成为人们沟通、交流的重要平台。互联网为人们提供大量的信息资源,大大方便了人们获取信息的效率,但是互联网上同样存在大量的重复的、相似的网页信息,这些信息对人们来说意义不大,反而成为一种麻烦,甚至带来无谓的资源消耗。因此如何识别出这些相似的网页信息是一个值得研究的课题。本文描述了当前国内外相似网页识别技术研究的背景,深入研究了相关的相似网页识别算法,对比分析各方法的优势与不足。并针对经典DSC算法、Simhash算法的不足,寻求积极改进措施：将基于<单词,权重>的Simhash算法改进为基于<单词序列,序列权重>的相似网页识别算法。序列权重计算时,融入单词之间的相对位置信息、网页自身结构特点信息等,而不仅仅是Simhash中的单词词频信息,从而更加全面的包含网页信息,求得算法性能的改善。本文最后基于改进的算法,构建简单的测试系统,通过互联网上真实的网页数据,对改进算法的有效性进行检验,并针对实验结果,进行分析。定义准确率和召回率,对改进后的算法效果与DSC算法、Simhash算法进行对比,做出总结。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 课题背景

1.2 课题意义

1.3 国内外研究现状

1.4 论文的主要工作

1.4.1 论文的研究内容

1.4.2 论文的结构

1.5 本章小结

第二章相似网页识别算法的相关研究

2.1 相似网页识别的基本流程

2.2 相似网页识别算法的分类

2.3 相似网页识别的相关算法

2.3.1 DSC和DSC-SS算法

2.3.2 I-Match算法

2.3.3 基于全文分段匹配的相似网页识别算法

2.3.4 基于向量空间模型的相似网页识别算法

2.3.5 基于特征串的相似网页识别算法

2.3.6 Simhash相似网页识别算法

2.3.7 基于Web链接结构的相似网页识别算法

2.3.8 SIF

2.3.9 SCAM

2.4 算法比较

2.5 本章小结

第三章相似网页识别算法的改进

3.1 算法改进的指导原则

3.2 改进算法的设计

3.2.1 基于DSC算法的特征串提取

3.2.2 基于Simhash算法的指纹生成

3.2.3 单词序列权重的计算

3.2.4 单词序列的选择

3.3 本章小结

第四章测试系统的实现及实验分析

4.1 工具选择

4.2 测试系统的架构

4.2.1 架构简图

4.3 功能模块的实现

4.3.1 DownLoader模块

4.3.2 Cleanupper模块

4.3.3 Analyzer模块

4.3.4 SimAdvancer模块

4.4 数据的存储

4.4.1 数据库表设计

4.5 指纹匹配运算

4.6 实验及结论

4.6.1 指纹哈希函数的选择

4.6.2 改进算法的相关实验

4.7 本章小结

第五章总结与展望

致谢

参考文献

研究生阶段发表论文目录

相似网页识别算法的研究与实现

论文摘要

论文目录

相关论文文献