
论文摘要
互联网的诞生和发展,深刻的改变着人们的生活,极大地推动着社会的发展与进步,尤为值得一提的是互联网已经成为人们获取信息的一个非常重要的途径,互联网已经成为人们沟通、交流的重要平台。互联网为人们提供大量的信息资源,大大方便了人们获取信息的效率,但是互联网上同样存在大量的重复的、相似的网页信息,这些信息对人们来说意义不大,反而成为一种麻烦,甚至带来无谓的资源消耗。因此如何识别出这些相似的网页信息是一个值得研究的课题。本文描述了当前国内外相似网页识别技术研究的背景,深入研究了相关的相似网页识别算法,对比分析各方法的优势与不足。并针对经典DSC算法、Simhash算法的不足,寻求积极改进措施:将基于<单词,权重>的Simhash算法改进为基于<单词序列,序列权重>的相似网页识别算法。序列权重计算时,融入单词之间的相对位置信息、网页自身结构特点信息等,而不仅仅是Simhash中的单词词频信息,从而更加全面的包含网页信息,求得算法性能的改善。本文最后基于改进的算法,构建简单的测试系统,通过互联网上真实的网页数据,对改进算法的有效性进行检验,并针对实验结果,进行分析。定义准确率和召回率,对改进后的算法效果与DSC算法、Simhash算法进行对比,做出总结。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题背景1.2 课题意义1.3 国内外研究现状1.4 论文的主要工作1.4.1 论文的研究内容1.4.2 论文的结构1.5 本章小结第二章 相似网页识别算法的相关研究2.1 相似网页识别的基本流程2.2 相似网页识别算法的分类2.3 相似网页识别的相关算法2.3.1 DSC和DSC-SS算法2.3.2 I-Match算法2.3.3 基于全文分段匹配的相似网页识别算法2.3.4 基于向量空间模型的相似网页识别算法2.3.5 基于特征串的相似网页识别算法2.3.6 Simhash相似网页识别算法2.3.7 基于Web链接结构的相似网页识别算法2.3.8 SIF2.3.9 SCAM2.4 算法比较2.5 本章小结第三章 相似网页识别算法的改进3.1 算法改进的指导原则3.2 改进算法的设计3.2.1 基于DSC算法的特征串提取3.2.2 基于Simhash算法的指纹生成3.2.3 单词序列权重的计算3.2.4 单词序列的选择3.3 本章小结第四章 测试系统的实现及实验分析4.1 工具选择4.2 测试系统的架构4.2.1 架构简图4.3 功能模块的实现4.3.1 DownLoader模块4.3.2 Cleanupper模块4.3.3 Analyzer模块4.3.4 SimAdvancer模块4.4 数据的存储4.4.1 数据库表设计4.5 指纹匹配运算4.6 实验及结论4.6.1 指纹哈希函数的选择4.6.2 改进算法的相关实验4.7 本章小结第五章 总结与展望致谢参考文献研究生阶段发表论文目录
相关论文文献
标签:相似网页论文; 算法论文; 识别论文;