基于段落指纹的大规模近似网页检测算法研究

基于段落指纹的大规模近似网页检测算法研究

论文摘要

随着信息技术的飞跃式发展,互联网进入了一个信息爆炸的时代,搜索引擎成为了人们获取信息最主要的途径。然而,互联网上存在很多近似网页,一方面加重了用户从中寻找有价值信息的负担,另一方面,为近似网页建立索引消耗了大量不必要的存储和计算资源,进而影响整个搜索引擎的质量和性能。可见,对网页进行近似检测不仅能够提高索引效率,节约存储资源,同时能够显著地提升搜索引擎的用户体验。本文首先对近似网页检测的研究现状做出综述,并对现有算法做出深入分析。随后,提出了一种基于加权DOM树的网页正文提取算法,通过实验验证了该算法在各类网页集上均获得高的正文提取准确率,并将其应用于本文的近似网页检测算法。接着,提出了一种基于段落指纹的近似网页检测算法,该算法充分利用了中文语言的语法结构、文章主题语义和HTML标签语义,实验数据表明,本文算法能够获得高的准确率和召回率。实现了三种已有的优秀近似网页检测算法,实验数据表明,本文算法在准确率、召回率、效率和指纹占用的存储资源这些关键方面均有优势。最后,基于MapReduce计算模型,对本文近似网页检测算法的并行化做出了深入研究,给出了详细的并行化设计方案,并在Hadoop分布式平台上实现了该方案。在不同的Hadoop集群规模下进行实验,数据表明,本文算法经过并行化设计后,效率得到了显著提升,很好地突破了单机处理的资源瓶颈,是一种能够适用于海量数据规模的且实际可行的方案。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 本文研究内容
  • 1.4 本文组织结构
  • 2 近似网页检测算法综述
  • 2.1 近似网页的定义
  • 2.2 近似网页检测研究现状
  • 2.3 近似网页检测算法通用模型
  • 2.3.1 特征提取算法
  • 2.3.2 特征指纹生成算法
  • 2.3.3 文本距离计算方法
  • 2.4 近似网页检测算法评价指标
  • 2.5 现有近似网页检测算法分析
  • 2.6 本章小结
  • 3 基于加权DOM树的网页正文提取算法
  • 3.1 网页噪声概述
  • 3.2 网页正文提取算法分析
  • 3.3 基于加权DOM树的网页正文提取算法
  • 3.3.1 基本概念
  • 3.3.2 算法思想
  • 3.3.3 算法描述
  • 3.3.4 算法对比与分析
  • 3.4 实验数据与分析
  • 3.4.1 实验环境和实验所用技术
  • 3.4.2 单个网页的实验结果
  • 3.4.3 多个网页的实验结果
  • 3.4.4 实验数据分析
  • 3.5 本章小结
  • 4 基于段落指纹的近似网页检测算法
  • 4.1 算法的提出
  • 4.2 算法的描述
  • 4.2.1 算法总体流程的形式化描述
  • 4.2.2 算法核心问题分析
  • 4.3 基于加权长句的段落特征提取算法
  • 4.3.1 段落长句提取
  • 4.3.2 段落长句权重计算
  • 4.4 基于SimHash的段落指纹生成算法
  • 4.4.1 SimHash算法思想
  • 4.4.2 段落指纹生成算法描述
  • 4.5 网页相似度计算
  • 4.6 算法的分析与优化
  • 4.7 实验数据与分析
  • 4.7.1 实验环境
  • 4.7.2 实验内容和实验数据集
  • 4.7.3 本文算法实验数据与分析
  • 4.7.4 本文算法与已有算法的对比分析
  • 4.8 本章小结
  • 5 基于MapReduce的近似网页检测算法并行化设计
  • 5.1 MapReduce计算模型
  • 5.1.1 MapReduce概述
  • 5.1.2 MapReduce执行流程
  • 5.1.3 Hadoop的开源MapReduce框架
  • 5.2 近似网页检测算法的并行化设计
  • 5.2.1 总体框架
  • 5.2.2 段落指纹索引的建立
  • 5.2.3 近似网页的检测
  • 5.2.4 段落指纹索引的更新
  • 5.3 实验数据与分析
  • 5.3.1 实验环境
  • 5.3.2 实验内容和实验数据集
  • 5.3.3 算法MapReduce化的实现
  • 5.3.4 实验数据分析
  • 5.4 本章小结
  • 6 总结与展望
  • 6.1 工作总结
  • 6.2 工作展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  

    基于段落指纹的大规模近似网页检测算法研究
    下载Doc文档

    猜你喜欢