基于XML的网页结构复用及抽取方法研究

基于XML的网页结构复用及抽取方法研究

论文摘要

Internet的发展使得Web网页开发也获得了很大的发展。当网络技术和分布式计算技术逐渐发展并走向成熟时,Web网页开发也变得非常复杂。Internet带来的最直接问题是Web网页的不断增加。由于缺乏统一有效的管理,大多数网页的开发、维护工作还处于混乱状态。当前Web网页一般采取小粒度的组件开发方法,使得网页开发带有很大的随意性,并导致网页难以维护。对特定领域的网页开发来说,如果能复用已有的设计和开发成果,将会在很大程度上提高网页的开发效率,节省大量的人力和物力资源。为了满足日渐复杂的商务逻辑,传统的软件编程思想也应用到了Web网页的开发过程中。本研究将组件技术引入到Web网页开发过程中,希望从大粒度的框架设计复用和小粒度的组件复用两方面来改善网页的开发过程。本文首先对现有的Web开发方法和XML技术加以研究,结合软件复用技术,提出了适合XML结构又较为通用的树型结构抽取复用的Web开发方法,它能够把Web页面的结构标记抽取出来并在此基础上形成一个XML组件。该组件可以复用到以后的网页结构中。

论文目录

  • 摘要
  • Abstract
  • 第一章 前言
  • 1.1 问题的提出
  • 1.2 研究背景及研究现状
  • 1.3 本文的内容和主要工作
  • 第二章软件复用及XML相关技术
  • 2.1 软件复用技术
  • 2.1.1 组件
  • 2.1.2 框架
  • 2.2 Web 表现层技术
  • 2.2.1 Web 表现层开发技术现状
  • 2.2.2 表现层框架开发技术的概况
  • 2.3 HTTP 技术
  • 2.3.1 HTTP 协议的运作方式
  • 2.3.2 HTTP HEADER
  • 2.4 HTML 语言局限性
  • 2.4.1 HTML 与WEB 网页
  • 2.4.2 HTML 的局限性
  • 2.4.3 格式良好的HTML 文档
  • 2.5 XML 相关技术
  • 2.5.1 XML 的起源和发展
  • 2.5.2 XML 的特点
  • 2.5.3 XML 的结构特征和模式
  • 2.5.4 XML 技术在本文中的应用
  • 第三章 基于XML 网页结构复用系统框架模型
  • 3.1 系统框架设计目标
  • 3.2 系统框架总体结构
  • 3.2.1 Enhydra 及其核心技术XMLC
  • 3.2.2 文档对象模型(DOM)
  • 3.2.3 XMLC 中的DOM
  • 3.2.4 XMLC 在网页结构复用中的优势
  • 3.3 系统框架组成模块
  • 3.3.1 页面预处理模块
  • 3.3.2 结构抽取模块
  • 3.3.3 XMLC 编译器
  • 3.3.4 组件集成模块
  • 3.3.5 系统表现层子框架
  • 第四章 网页结构抽取过程设计与实现
  • 4.1 网页结构抽取过程设计
  • 4.2 网页获取
  • 4.2.1 目标网页的指定方式(POST/GET)
  • 4.2.2 网站连接登录问题
  • 4.2.3 HTML 源代码获取
  • 4.3 抽取规则定义
  • 4.3.1 网页模式提取
  • 4.3.2 目标模板模式的建立
  • 4.3.3 DOM 节点抽取过程描述文件
  • 4.4 结构抽取实施
  • 4.4.1 获取网页数据
  • 4.4.2 HTML 到XML 的转换
  • 4.4.3 DOM 树的建立和打印
  • 4.4.4 目标模板的建立
  • 4.4.5 映射规则执行
  • 4.4.6 抽取规则执行算法
  • 4.4.7 将DOM 文档转换为XML 文件
  • 4.5 本章小结
  • 结论与展望
  • 参考文献
  • 致谢
  • 附录(攻读学位期间所发表的学术论文)
  • 详细摘要
  • 相关论文文献

    标签:;  ;  ;  

    基于XML的网页结构复用及抽取方法研究
    下载Doc文档

    猜你喜欢