基于页面分块的Web档案构建技术研究

论文摘要

随着Internet的普及和飞速发展,万维网累积了大量的信息资源。它作为一个巨大的资源库和知识库,与人们的生活联系越来越紧密。通过万维网看新闻、写博客、查找资料等等,已经成为日常生活不可或缺的一部分。但是,随着时间的推移,万维网也在默默地发生着变化,其体积在不断的增大,其中的内容也在不断消失、更换和增多。在万维网不断发展壮大的过程中,Internet有一部分内容在逐渐地消失,像一些过期的网页、个人博客等等。这种消失分为两种情况,一是Web页面所在的服务器不再提供服务,二是这些内容被新的内容替换了,但这两种消失都可能是永久性的。针对这种情况,近年来很多机构开始研究和建立各自Web档案系统,并不断地扩展其应用,使其成为一个不断增长的知识库,一个Web的历史博物馆。网页档案系统按照时间顺序将Internet上存在的大量网页收集起来,进行必要的整理,以供将来的研究和使用。其意义在于它能够将随着时间大量流逝的网页保留下来,为针对Internet的研究提供一个比较全面的数据源,并可以以近似原貌的形式将其显示出来,通过更深入的研究还可以在其基础上实现进一步的应用。基于此,本文提出了一种面向Web档案的页面分块方法,初步建立了一个基于页面分块的Web档案原型系统,该系统以页面块为单位探测Web页面的变化,并能够实现块级别的增量存储,为历史页面的查询和研究提供数据源。与传统的基于整个页面的Web档案构建方法相比,本文工作的特点是基于页面分块技术,使版本比较、存储均以块为单位,减少了版本比较和存储的开销。实验表明,本文提出的基于页面块的Web档案系统构建方法是可行和有效的。

论文目录

摘要

Abstract

第1章绪论

1.1 Web档案系统

1.1.1 Web档案构建的意义

1.1.2 Web档案系统的归档模式

1.1.3 Web档案系统的一般结构

1.2 Web网页分析

1.2.1 Web网页特点

1.2.2 Web网页组织结构

1.2.3 Web网页的更新特点

1.3 问题的提出

1.4 本文的研究目标与研究内容

1.4.1 本文的研究目标

1.4.2 本文的研究内容

1.5 本文的组织结构

第2章相关工作

2.1 Web档案构建相关工作

2.2 Web页面分块相关工作

2.3 本文工作的特点

2.4 本章小结

第3章面向Web档案系统的页面分块

3.1 问题描述

3.1.1 Web页面块定义

3.1.2 Web页面块分类

3.1.3 Web页面分块问题形式化描述

3.2 Web页面分块相关技术

3.2.1 Web页面构建基础

3.2.2 基于节点熵的页面分块技术

3.2.3 基于视觉特征的页面分块技术

3.2.4 基于内容距离的页面分块技术

3.3 面向Web档案系统的页面分块算法

3.3.1 主题块的识别

3.3.2 其它块的判定

3.3.3 算法描述

3.4 本章小结

第4章基于页面分块的Web存档

4.1 问题描述

4.2 Web页面获取相关技术

4.3 Web版本比较

4.4 Web页面分块

4.5 Web增量存储

4.6 Web页面的历史查询与重构

4.7 本章小结

第5章实验分析与评价

5.1 基于页面分块的Web存档原型系统

5.2 实验结果与分析

5.3 本章小结

第6章结论与展望

6.1 本文工作的总结

6.2 进一步的工作

参考文献

致谢

攻读学位期间参与的项目

基于页面分块的Web档案构建技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢