面向网页去重的特征提取与重复模式发现

面向网页去重的特征提取与重复模式发现

论文摘要

互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数目的不断增加,为了用户能方便的访问它们,搜索引擎应运而生。但由于互联网上存在大量的因转载或抄袭形成的重复网页,这些网页被搜索引擎重复的存储和检索,造成存储空间的浪费和检索效率的降低,同时也带来了较差的用户体验。因此网页去重是搜索引擎中比较重要的一个环节。本文针对网页去重着重研究以下两个问题:第一个问题是网页特征提取。网页特征提取的前提是网页正文提取,但由于广告等噪声的存在,导致目前的正文提取算法均不能完全准确的提取出网页正文内容,这对后续的网页去重造成了较大的影响。如何在存在少许噪声的正文中提取纯净的网页特征在很大程度上决定了网页去重的准确率。本文提出了基于层次筛选的特征提取算法,充分考虑了段落、句子与关键词的联系,逐层筛选网页信息得到特征词、词性对集合,达到将网页本身结构和内部信息权重结合的目的,使提取出的特征不仅能均匀覆盖网页,还具有一定的抗噪性。第二个问题是网页特征重复模式发现。目前的重复模式发现算法主要分为两种:基于集合的实现和基于特征串的实现。基于集合的实现比较注重特征集合中特征项的权重,但忽视了特征项的顺序,加上Hash值冲突问题带来的误判,此实现并不适合用于网页去重;基于特征串的实现虽然考虑了特征项的顺序,但采用最长公共子串衡量网页重复度则过于严格,检测不出非连续重复的网页。为了解决上述问题,本文提出了基于改进最长公共子序列的重复模式发现算法。将特征词、词性对集合以句子为单位计算最长公共子序列,既降低了维度、保证了句子的完整性,又能改善Hash值冲突问题。为了提高计算和查找的效率,本算法改进了最长公共子序列算法的经典实现和倒排表组织方式,并将其应用于网页重复模式发现。最后,本文进行了相关实验验证工作,结果表明改进后的算法在召回率和准确率上都优于目前的常用算法。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题来源及意义
  • 1.2 应用背景介绍
  • 1.2.1 搜索引擎
  • 1.2.2 自然语言处理
  • 1.3 论文研究内容
  • 1.4 论文组织结构
  • 第2章 网页去重相关技术研究现状
  • 2.1 引言
  • 2.2 特征提取技术
  • 2.2.1 基于规则的提取技术
  • 2.2.2 基于权重的提取技术
  • 2.3 重复模式发现技术
  • 2.4 网页去重技术发展趋势
  • 2.5 本章小结
  • 第3章 基于层次筛选的网页特征提取算法
  • 3.1 引言
  • 3.2 算法总体思路
  • 3.3 算法细节描述
  • 3.3.1 段落筛选与去噪
  • 3.3.2 句子筛选
  • 3.3.3 特征词筛选
  • 3.4 实验结果与分析
  • 3.4.1 实验步骤
  • 3.4.2 实验结果
  • 3.4.3 实验对比分析
  • 3.5 本章小结
  • 第4章 基于改进LCS的重复模式发现算法
  • 4.1 引言
  • 4.2 LCS算法研究与改进
  • 4.2.1 LCS算法的实现与缺陷
  • 4.2.2 LCS算法改进
  • 4.3 基于改进LCS的重复模式发现
  • 4.3.1 文本表示与重复定义
  • 4.3.2 方案设计与实现
  • 4.4 实验结果与分析
  • 4.4.1 实验步骤
  • 4.4.2 实验结果
  • 4.4.3 实验对比分析
  • 4.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  ;  

    面向网页去重的特征提取与重复模式发现
    下载Doc文档

    猜你喜欢