基于页面分块的Web档案构建技术研究

基于页面分块的Web档案构建技术研究

论文摘要

随着Internet的普及和飞速发展,万维网累积了大量的信息资源。它作为一个巨大的资源库和知识库,与人们的生活联系越来越紧密。通过万维网看新闻、写博客、查找资料等等,已经成为日常生活不可或缺的一部分。但是,随着时间的推移,万维网也在默默地发生着变化,其体积在不断的增大,其中的内容也在不断消失、更换和增多。在万维网不断发展壮大的过程中,Internet有一部分内容在逐渐地消失,像一些过期的网页、个人博客等等。这种消失分为两种情况,一是Web页面所在的服务器不再提供服务,二是这些内容被新的内容替换了,但这两种消失都可能是永久性的。针对这种情况,近年来很多机构开始研究和建立各自Web档案系统,并不断地扩展其应用,使其成为一个不断增长的知识库,一个Web的历史博物馆。网页档案系统按照时间顺序将Internet上存在的大量网页收集起来,进行必要的整理,以供将来的研究和使用。其意义在于它能够将随着时间大量流逝的网页保留下来,为针对Internet的研究提供一个比较全面的数据源,并可以以近似原貌的形式将其显示出来,通过更深入的研究还可以在其基础上实现进一步的应用。基于此,本文提出了一种面向Web档案的页面分块方法,初步建立了一个基于页面分块的Web档案原型系统,该系统以页面块为单位探测Web页面的变化,并能够实现块级别的增量存储,为历史页面的查询和研究提供数据源。与传统的基于整个页面的Web档案构建方法相比,本文工作的特点是基于页面分块技术,使版本比较、存储均以块为单位,减少了版本比较和存储的开销。实验表明,本文提出的基于页面块的Web档案系统构建方法是可行和有效的。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 Web档案系统
  • 1.1.1 Web档案构建的意义
  • 1.1.2 Web档案系统的归档模式
  • 1.1.3 Web档案系统的一般结构
  • 1.2 Web网页分析
  • 1.2.1 Web网页特点
  • 1.2.2 Web网页组织结构
  • 1.2.3 Web网页的更新特点
  • 1.3 问题的提出
  • 1.4 本文的研究目标与研究内容
  • 1.4.1 本文的研究目标
  • 1.4.2 本文的研究内容
  • 1.5 本文的组织结构
  • 第2章 相关工作
  • 2.1 Web档案构建相关工作
  • 2.2 Web页面分块相关工作
  • 2.3 本文工作的特点
  • 2.4 本章小结
  • 第3章 面向Web档案系统的页面分块
  • 3.1 问题描述
  • 3.1.1 Web页面块定义
  • 3.1.2 Web页面块分类
  • 3.1.3 Web页面分块问题形式化描述
  • 3.2 Web页面分块相关技术
  • 3.2.1 Web页面构建基础
  • 3.2.2 基于节点熵的页面分块技术
  • 3.2.3 基于视觉特征的页面分块技术
  • 3.2.4 基于内容距离的页面分块技术
  • 3.3 面向Web档案系统的页面分块算法
  • 3.3.1 主题块的识别
  • 3.3.2 其它块的判定
  • 3.3.3 算法描述
  • 3.4 本章小结
  • 第4章 基于页面分块的Web存档
  • 4.1 问题描述
  • 4.2 Web页面获取相关技术
  • 4.3 Web版本比较
  • 4.4 Web页面分块
  • 4.5 Web增量存储
  • 4.6 Web页面的历史查询与重构
  • 4.7 本章小结
  • 第5章 实验分析与评价
  • 5.1 基于页面分块的Web存档原型系统
  • 5.2 实验结果与分析
  • 5.3 本章小结
  • 第6章 结论与展望
  • 6.1 本文工作的总结
  • 6.2 进一步的工作
  • 参考文献
  • 致谢
  • 攻读学位期间参与的项目
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于页面分块的Web档案构建技术研究
    下载Doc文档

    猜你喜欢