论文摘要
随着Internet的普及和飞速发展,万维网累积了大量的信息资源。它作为一个巨大的资源库和知识库,与人们的生活联系越来越紧密。通过万维网看新闻、写博客、查找资料等等,已经成为日常生活不可或缺的一部分。但是,随着时间的推移,万维网也在默默地发生着变化,其体积在不断的增大,其中的内容也在不断消失、更换和增多。在万维网不断发展壮大的过程中,Internet有一部分内容在逐渐地消失,像一些过期的网页、个人博客等等。这种消失分为两种情况,一是Web页面所在的服务器不再提供服务,二是这些内容被新的内容替换了,但这两种消失都可能是永久性的。针对这种情况,近年来很多机构开始研究和建立各自Web档案系统,并不断地扩展其应用,使其成为一个不断增长的知识库,一个Web的历史博物馆。网页档案系统按照时间顺序将Internet上存在的大量网页收集起来,进行必要的整理,以供将来的研究和使用。其意义在于它能够将随着时间大量流逝的网页保留下来,为针对Internet的研究提供一个比较全面的数据源,并可以以近似原貌的形式将其显示出来,通过更深入的研究还可以在其基础上实现进一步的应用。基于此,本文提出了一种面向Web档案的页面分块方法,初步建立了一个基于页面分块的Web档案原型系统,该系统以页面块为单位探测Web页面的变化,并能够实现块级别的增量存储,为历史页面的查询和研究提供数据源。与传统的基于整个页面的Web档案构建方法相比,本文工作的特点是基于页面分块技术,使版本比较、存储均以块为单位,减少了版本比较和存储的开销。实验表明,本文提出的基于页面块的Web档案系统构建方法是可行和有效的。
论文目录
摘要Abstract第1章 绪论1.1 Web档案系统1.1.1 Web档案构建的意义1.1.2 Web档案系统的归档模式1.1.3 Web档案系统的一般结构1.2 Web网页分析1.2.1 Web网页特点1.2.2 Web网页组织结构1.2.3 Web网页的更新特点1.3 问题的提出1.4 本文的研究目标与研究内容1.4.1 本文的研究目标1.4.2 本文的研究内容1.5 本文的组织结构第2章 相关工作2.1 Web档案构建相关工作2.2 Web页面分块相关工作2.3 本文工作的特点2.4 本章小结第3章 面向Web档案系统的页面分块3.1 问题描述3.1.1 Web页面块定义3.1.2 Web页面块分类3.1.3 Web页面分块问题形式化描述3.2 Web页面分块相关技术3.2.1 Web页面构建基础3.2.2 基于节点熵的页面分块技术3.2.3 基于视觉特征的页面分块技术3.2.4 基于内容距离的页面分块技术3.3 面向Web档案系统的页面分块算法3.3.1 主题块的识别3.3.2 其它块的判定3.3.3 算法描述3.4 本章小结第4章 基于页面分块的Web存档4.1 问题描述4.2 Web页面获取相关技术4.3 Web版本比较4.4 Web页面分块4.5 Web增量存储4.6 Web页面的历史查询与重构4.7 本章小结第5章 实验分析与评价5.1 基于页面分块的Web存档原型系统5.2 实验结果与分析5.3 本章小结第6章 结论与展望6.1 本文工作的总结6.2 进一步的工作参考文献致谢攻读学位期间参与的项目
相关论文文献
标签:存档论文; 历史页面论文; 页面分块论文; 版本比较论文;