Web数据集成中包装器自适应方法研究

论文摘要

随着互联网的快速发展,Web上产生了大量与领域相关的信息,这些信息也成了人类获取知识的重要来源。互联网已经成为一个巨大的信息交流平台,大量的信息嵌入在Web页面中。Web页面是一种半结构化的数据,Web数据抽取可以将这种半结构化数据抽取并转化为结构化数据,从而为进一步的知识获取做准备,这一过程通常采用一个称之为包装器的应用程序来实现。包装器的工作依赖于页面的结构信息,然而由于互联网的动态特征,站点可能会经常更新其展现形,导致了Web页面结构发生变化,这一变化最终导致包装器停止工作。包装器自适应针对这一问题开展相关的研究。包装器的自适应研究可以分为两个子问题：包装器校验和包装器重归纳。第一个子问题是如何对包装器返回数据进行有效性校验,确保包装器处于正常工作的状态。当站点结构发生变动时,旧的包装器可能无法继续抽取到数据,或者抽取出来的数据是完全错误的,当系统检测出这一情况发生时,对设计者进行提醒,或自动执行包装器修复过程进行修复。包装器重归纳系统对抽取规则进行修复从而使包装器能够在结构变化后的新页面上正常工作。本文充分利用Web数据集成系统中已有数据提供的信息,利用其展现出来的数据特征对新抽取的数据记录进行校验,检测包装器是否正常工作。同时结合Web页面自身体现各种特征,对Web数据页面中的属性标签和数据元素进行准确的标记,生成良好的训练样例,辅助生成新的包装器。实验结果表明,该方法有效地提高了包装器的自适应性能。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 研究背景

1.2 研究现状

1.3 研究内容

1.4 论文组织结构

第2章 Web数据抽取相关研究

2.1 引言

2.2 Web数据抽取过程

2.3 半结构化数据

2.3.1 半结构化数据定义

2.3.2 半结构化数据特点

2.4 Web数据抽取

2.4.1 信息抽取的定义

2.4.2 Web数据抽取与Web信息检索

2.4.3 Web数据抽取方法分类

2.4.3.1 手工构造

2.4.3.2 半自动数据抽取方法

2.4.3.3 全自动的数据抽取方法

2.5 面临的问题

2.6 小结

第3章包装器校验

3.1 引言

3.2 研究现状

3.3 包装器校验

3.3.1 问题定义

3.3.2 校验方法

3.4 小结

第4章包装器自适应方法EDG-VM

4.1 引言

4.2 EDG-VM

4.2.1 确定特征向量

4.2.2 识别数据区域

4.2.3 生成训练样例

4.2.4 包装器重归纳

4.3 实验

4.3.1 评价标准

4.3.2 实验结果及分析

4.4 相关工作

4.5 小结

第5章总结与展望

5.1 总结

5.2 未来工作展望

参考文献

致谢

攻读学位期间发表的学术论文目录

学位论文评阅及答辩情况表

Web数据集成中包装器自适应方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢