面向论坛页面的增量搜集技术研究

面向论坛页面的增量搜集技术研究

论文摘要

网络论坛是用户创建和讨论话题的平台,每天都有数以百万的用户发表各种话题。论坛数据通常包含大量高价值的知识和信息,已经成为重要的数据源。有些商业搜索引擎利用论坛数据来改善搜索结果的质量,还有些研究试图从论坛数据中挖掘有用的信息。无论何种web应用,最基本的步骤是从各种论坛站点中抓取数据,建立本地网页库,并维持对本地网页库的增量搜集。增量搜集技术的核心理论依据是网页的变化规律和以此为基础的最优化调度策略。论坛站点有一些不同于通常站点的特征:结构复杂且存在许多重复链接;较长的帖子分布在多个页面上,链接深度大;论坛的内容变化更加频繁而且内容增量式更新。传统增量搜集技术以单个页面作为基本调度单位,研究的是单个页面的变化规律,并不适于对论坛数据进行增量搜集。本文主要研究论坛的增量搜集问题,主要贡献有以下几点:1.在论坛中属于同一主题的信息通常分布在多个页面上,本文摒弃传统增量搜集技术中以单个页面为增量搜集的基本单位的做法,将属于同一信息的页面集合作为增量搜集的基本单位。页面集合主要有两种类型:属于同一版块的页面集合和属于同一帖子的页面集合。2.通过对论坛结构的观察和对版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。策略主要包含两种算法:11.基于版块的增量抓取算法:在大多数论坛中,版块页面即帖子列表页中的帖子是按照最后回复时间进行排序列表,即新发布的帖子或者有新回复的帖子会排列在帖子列表的前部。增量抓取算法利用MDR自动抽取算法,抽取列表页中的帖子链接和最后回复时间,然后判断是否为新发布帖子或者有新回复的帖子。2).基于版块的增量调度算法:通过对版块页面集合变化规律的统计分析,发现不同的版块内容变化频率相差很大,并且版块的变化频率与当天的局部时间相关,具有局部时间规律。算法根据变化频率为不同的版块赋予不同的权重,然后根据权重分配版块的抓取次数,同时根据版块变化的局部时间规律,确定每次的抓取时间点。实验结果表明本策略的带宽利用率为1,能够保证对发生变化的帖子的覆盖率接近百分之百,同时能够大幅减小系统总延迟,与平均调度方法相比系统总延迟最高可减小42%。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 相关研究及发展
  • 1.3 本文的主要工作
  • 1.4 本文的组织
  • 第二章 Web增量搜集技术
  • 2.1 增量搜集的基本概念
  • 2.1.1 周期式搜集
  • 2.1.2 增量式搜集
  • 2.2 增量搜集技术
  • 2.2.1 网页变化规律的研究
  • 2.2.2 传统的增量搜集技术
  • 2.3 论坛爬虫研究
  • 2.4 论坛增量搜集技术
  • 第三章 论坛结构和特性
  • 3.1 论坛结构
  • 3.2 论坛页面的变化规律
  • 3.2.1 增量式变化
  • 3.2.2 帖子列表页的特点
  • 3.2.3 局部时间特性
  • 第四章 论坛增量搜集策略
  • 4.1 基本概念
  • 4.2 基于版块的增量抓取算法
  • 4.2.1 MDR自动抽取算法
  • 4.2.2 增量抓取算法
  • 4.3 基于版块的增量调度算法
  • 4.3.1 分配抓取资源
  • 4.3.2 确定抓取时间点
  • 4.4 实验与结果分析
  • 4.4.1 论坛数据集
  • 4.4.2 增量抓取算法实验结果
  • 4.4.3 增量调度算法实验结果
  • 第五章 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    • [1].基于知识获取的网络增量数据自动分片仿真[J]. 计算机仿真 2020(05)
    • [2].客观全面看待增量配网试点政策[J]. 中国电力企业管理 2018(07)
    • [3].增量配电政策的落地是关键[J]. 中国电力企业管理 2018(34)
    • [4].一种面向数据仓库周期性查询的增量优化方法[J]. 软件学报 2017(08)
    • [5].增量品类的突破路径[J]. 中国药店 2016(05)
    • [6].以“参”作则!专注参圈控草十余年的益洋科技逆势增量30%,背后有何秘诀?[J]. 当代水产 2019(12)
    • [7].浅谈增量规划、存量规划与政策规划[J]. 民营科技 2017(04)
    • [8].对“减少腐败存量,遏制腐败增量”的理性思考[J]. 南京政治学院学报 2015(03)
    • [9].“民主增量”离不开细节推进[J]. 民主与法制 2009(06)
    • [10].再论“增量分析”——从经济学的视角[J]. 中国药物经济学 2008(06)
    • [11].关于增量配电放开相关问题的探讨[J]. 中国电力企业管理 2018(07)
    • [12].增量思维:“一举四得”的管理智慧[J]. 销售与市场(管理版) 2016(05)
    • [13].创设思维增量,培养核心素养[J]. 试题与研究 2018(10)
    • [14].增量公开:官邸制的一种尝试[J]. 才智 2014(03)
    • [15].市场竞争的本质是经济增量的再分配[J]. 商场现代化 2008(34)
    • [16].安徽省谷物增量格局及贡献因素分析[J]. 贵州师范大学学报(自然科学版) 2020(01)
    • [17].增量配电改革方法论[J]. 中国电力企业管理 2018(07)
    • [18].打开增量配电引资之门[J]. 国家电网 2016(11)
    • [19].英语会话增量现象的界定:问题与建议[J]. 外国语(上海外国语大学学报) 2012(02)
    • [20].土地流转中增量利益关系之经济法调整论[J]. 湘潭大学学报(哲学社会科学版) 2012(06)
    • [21].提高国有增量资本运营效率研究[J]. 哈尔滨商业大学学报(社会科学版) 2009(03)
    • [22].销售增量瓶颈问题分析[J]. 中国盐业 2016(04)
    • [23].规划编制要实现从增量到存量与减量规划的转型[J]. 城市规划 2014(11)
    • [24].现代技术溢出的女性“增量自由”[J]. 科学技术哲学研究 2015(03)
    • [25].让一加一大于二——“随文增量1+1”路径简介[J]. 新课程教学(电子版) 2015(05)
    • [26].市场 增量与存量[J]. 汽车纵横 2013(07)
    • [27].增量与演化流形学习综述[J]. 智能系统学报 2012(05)
    • [28].面状水系伪增量剔除的拓扑量化法[J]. 武汉大学学报(信息科学版) 2012(12)
    • [29].存量不变 增量分成[J]. 中国数字电视 2011(12)
    • [30].网络信息大数据动态增量分布式挖掘方法研究[J]. 安阳工学院学报 2020(02)

    标签:;  ;  ;  ;  

    面向论坛页面的增量搜集技术研究
    下载Doc文档

    猜你喜欢