基于布隆过滤器算法的网页消重技术的实现与应用

基于布隆过滤器算法的网页消重技术的实现与应用

论文摘要

随着Internet的不断发展,网络信息呈指数级不断膨胀,这也给信息检索带来了很大的困难,因此对于重复网页的消重操作也是十分有意义的。本文从理论和应用两方面对网页消重技术进行了研究,达到了以下目标:首先,针对特定的需求,设计与实现了基于问答平台网站的爬虫,给出了详细的实现过程,并实现了基于布隆过滤器算法(Bloom Filter)的重复URL的过滤;其次,采用XPath路径表达式定位目标节点,对于目标网页的网页正文内容进行提取操作;最后,对抽取出来的网页正文内容进行了消重操作。对网页正文内容进行了变长分块操作,对分块后的文档进行了Bloom Filter编码,并通过对文档间的Bloom Filter进行逻辑按位与操作来判断文档间的相似程度。论文实现的消重方法已经应用于实际,实际应用结果表明,该方法取得了显著的去重效果,大大提高了信息检索系统性能与用户体验性。

论文目录

  • 致谢
  • 中文摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 知识背景
  • 1.1.1 重复网页定义
  • 1.1.2 产生重复网页的原因
  • 1.1.3 消除重复网页的意义
  • 1.2 项目背景
  • 1.3 网页消重技术的国内外研究现状
  • 1.4 论文内容与组织
  • 1.5 本章小结
  • 2 网络爬虫的设计与实现
  • 2.1 网络爬虫作用
  • 2.2 通用网络爬虫
  • 2.2.1 通用网络爬虫的基本结构
  • 2.2.2 通用网络爬虫的爬行策略
  • 2.3 本文爬虫的操作目标
  • 2.4 爬虫的设计与实现
  • 2.5 网页URL消重实现
  • 2.5.1 常用URL消重算法简介
  • 2.5.2 布隆过滤器算法简述
  • 2.5.3 基于布隆过滤器算法的网页URL消重的实现
  • 2.5.4 URL消重效果数据展示
  • 2.6 本章小结
  • 3 网页正文内容提取技术实现
  • 3.1 文本内容提取技术介绍
  • 3.2 文内容提取技术实现
  • 3.2.1 相关技术介绍
  • 3.2.2 文本信息提取的实现
  • 3.3 本章小结
  • 4 网页内容消重的实现
  • 4.1 网页消重算法简介
  • 4.2 针对网页内容的消重算法实现
  • 4.2.1 变长分块
  • 4.2.2 Bloom Filter的生成
  • 4.2.3 网页消重实现
  • 4.2.4 消重效果数据展示
  • 4.3 本章小结
  • 5 总结与展望
  • 5.1 全文工作总结
  • 5.2 进一步的工作
  • 参考文献
  • 学位论文数据集
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  

    基于布隆过滤器算法的网页消重技术的实现与应用
    下载Doc文档

    猜你喜欢