搜索引擎重复网页检测技术研究

搜索引擎重复网页检测技术研究

论文摘要

网络的飞速发展,给人们带来了一个信息的海洋,如何快速从中获取真正重要的信息变得至关重要,搜索引擎便是提供这种功能的一种工具。然而在搜索引擎返回的检索结果中,存在着大量的重复网页。这不仅严重影响了搜索引擎检索信息的效率,同时存储这些重复网页浪费了巨大的存储空间。而对于搜索引擎的用户而言,在检索含有大量重复网页的系统时,提供给用户的有效响应明显降低。因此,重复网页检测已成为搜索引擎提高检索效率与服务质量的关键技术之一。本文以搜索引擎的重复网页检测问题为研究背景,首先对现存的主要重复网页检测算法进行了深入的研究,总结了它们各自的优缺点;并以此为基础提出了一种基于语义的重复网页检测算法。该算法主要针对重复网页检测的两个关键环节进行优化。在文本预处理中,根据词语之间存在着大量的同义与近义的语义关系,增加了同义词与近义词的归并;在特征提取环节,从词语在文本中的语义角度出发,与传统方法相比,增加了词语的位置权值与长度权值;在特征比较环节,回避了传统方法对网页的两两比较,采用了二叉排序树的数据结构,比较的效率得到很大的提高。并针对如何对提取的关键词排序的问题,又提出了两种关键词排序方法,一种是按关键词权值排序的SORTw(Kd)方法,另一种是按关键词字母排序的SORTa(Kd)方法。为了验证所提出算法的有效性和效率,本文在Windows平台实现了一个重复网页检测的原型系统。运用此原型系统,进行了一系列的实验分析与总结,并验证了本文所提出的基于语义的重复网页检测算法及两种关键词排序方法均具有较高的准确率与召回率,与较低的时间与空间复杂度。进一步改进、完善以后,可望获得今后在实际当中的应用。

论文目录

  • 摘要
  • Abstract
  • 1 引言
  • 1.1 研究背景及意义
  • 1.2 研究现状简介
  • 1.3 本文主要研究工作
  • 1.4 本文组织
  • 2 相关理论和技术研究
  • 2.1 重复网页的定义
  • 2.2 常用重复网页检测算法
  • 2.2.1 SCAM 算法
  • 2.2.2 DSC 和DSC-SS 算法
  • 2.2.3 I-Match 算法
  • 2.2.4 全文分段签名算法
  • 2.2.5 基于关键词匹配算法
  • 2.2.6 基于特征码抽取算法
  • 2.3 常用算法的性能分析
  • 2.4 重复网页检测技术的关键环节
  • 2.4.1 特征提取
  • 2.4.2 特征比较
  • 3 关键技术介绍
  • 3.1 MD5 算法
  • 3.2 二叉排序树
  • 3.3 中文分词技术
  • 3.3.1 中文分词的应用
  • 3.3.2 中文分词的难点
  • 3.3.3 中文分词的方法
  • 3.3.4 ICTCLAS 汉语分词系统介绍
  • 4 一种基于语义的重复网页检测算法
  • 4.1 算法描述
  • 4.1.1 关键词权值排序方法
  • 4.1.2 关键词字母排序方法
  • 4.2 预处理
  • 4.3 词语权值计算方法
  • 4.3.1 位置权值
  • 4.3.2 长度权值
  • 4.3.3 权值计算总公式
  • 4.4 算法流程
  • 4.5 算法分析
  • 5 重复网页检测原型系统的设计及实验结果
  • 5.1 原型系统的设计
  • 5.1.1 系统的总体框架
  • 5.1.2 系统的具体模块
  • 5.1.3 基于语义的重复网页检测算法的实现
  • 5.2 算法的评测
  • 5.2.1 基准算法
  • 5.2.2 实验数据集
  • 5.2.3 评价指标
  • 5.3 实验结果
  • 5.3.1 运行环境
  • 5.3.2 确定算法的最优参数
  • 5.3.3 同基准算法的比较
  • 6 结论与展望
  • 6.1 结论
  • 6.2 下一步研究工作
  • 致谢
  • 参考文献
  • 附录1 (攻读学位期间发表论文目录)
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  

    搜索引擎重复网页检测技术研究
    下载Doc文档

    猜你喜欢