论文题目: 面向复杂数据源的数据抽取模型和算法研究
论文类型: 博士论文
论文专业: 计算机软件与理论
作者: 邓绪斌
导师: 朱扬勇
关键词: 数据抽取,数据抽取模型,抽取算法,复杂数据源,噪声
文献来源: 复旦大学
发表年度: 2005
论文摘要: 随着信息技术的飞速发展,互联网上的电子文档已经成为一个巨大的信息源。在这个巨大的信息源面前,人们自然希望利用成熟的数据库技术对感兴趣的数据进行方便的查询、分析和报告。这就刺激了围绕这些数据源开发数据集成系统的研究工作。数据集成系统组合来自不同数据源的数据,目的在于以一个统一的视图提供给用户使用。 数据抽取是数据集成系统的基础问题之一,这一问题可简单地描述为:给定数据源S,确定一个S到数据库R的映射M,该映射用数据抽取模型、抽取规则和抽取算法去抽取S中的数据对象,用数据库模式、映射规则和组装算法将已抽取的数据对象组装到R中(本文将数据抽取模型、抽取规则、数据库模式和映射规则通称为元数据)。实现映射M的计算机程序称为包装器。数据集成系统常用包装器生成工具生成所需的包装器。由于数据源的多样性和复杂性,如何快速准确地为各种数据源建立包装器是数据集成系统实现的关键。这一课题已成为计算机界研究的热点,也是本文研究的核心问题。 本文的研究动机是从各种生物数据源中抽取感兴趣的数据对象,将这些数据对象组装到生物数据集成系统中,目的在于为生物学家搭建方便的查询分析平台。从数据抽取的角度讲,生物数据源不仅规模庞大,抽取准确度要求高,而且往往具有一些会导致现有包装器生成工具失效的复杂特性。首先,生物数据源中的数据对象具有结构复杂性:数据对象往往具有多层嵌套结构,对象的成分可以缺失、多次重复、有序出现或无序出现;其次,抽取规则具有复杂性:生物数据源常用非标准标签对数据对象进行分隔,许多需抽取的对象甚至没有恰当标签,某些指定的标签可能会在数据对象内容中出现,导致歧义(即数据源中含有噪声成分);第三,映射规则具有复杂性:往往需要对已抽取的数据对象实施一些扩展操作后才能将它们组装到数据库中。 本文从分析现有包装器生成工具在处理复杂生物数据源时存在的问题入手,提出了两种面向复杂数据源的数据抽取模型和算法,在此基础上设计和实现了ReDE包装器生成工具和L-树包装器生成工具。本文的主要研究成果包括: (1) 提出了一套面向无噪声复杂数据源的新型数据抽取方法 针对现有包装器生成工具需要手工生成和维护大量元数据的问题,本文实现了利用元数据间的依赖关系,从正则表达式(Regular Expression,简称RE)自动导出其他元数据的映射方法。这一方法降低了元数据生成和维护的工作量,保证了元数据间的一致性;针对传统RE匹配算法在解决数据抽取问题时存在的不足,本文设计了一种基于传统RE匹配的新型数据抽取算法,该算法将传统RE匹配作为基本建筑模块,利用RE分析树在数据源中递归地进行数据对象的切分、
论文目录:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.1.1 数据集成系统简介
1.1.2 数据抽取问题简介
1.1.3 本文的研究目标
1.2 数据抽取模型和算法的研究现状
1.2.1 数据抽取模型描述方法
1.2.2 规则描述方法
1.2.3 数据库映射机制
1.2.4 抽取算法
1.2.5 元数据生成方法
1.3 包装器生成工具的分类和质量评价指标
1.4 现有包装器生成工具在处理复杂数据源时的不足
1.5 本文的设计思路和解决方案
1.5.1 设计思路
1.5.2 解决方案: ReDE包装器生成工具和L-树包装器生成工具
1.5.3 ReDE包装器生成工具和L-树包装器生成工具的架构
1.6 本文的主要研究内容和成果
1.7 和相关工作的比较
1.7.1 与 ReDE包装器生成工具相关的研究工作
1.7.2 与 L-树包装器生成工具相关的研究工作
1.8 论文结构
第二章 ReDE:基于 RE的数据抽取方法
2.1 正则表达式及其分析树
2.2 从RE分析树到数据抽取模型和关系数据库模式
2.3 ReDE的数据抽取和组装算法
2.4 ReDE的数据抽取和组装算法分析
2.4.1 代价模型
2.4.2 算法伸缩性
2.4.3 重叠匹配的时间复杂度
2.5 ReDE方法的应用实例及实验结果
2.5.1 应用实例
2.5.2 实验结果
2.6 本章小结
第三章 基于与或树的RE二义性检查
3.1 RE二义性问题概述
3.1.1 RE二义性问题及现有处理方法
3.1.2 现有二义性处理方法在数据抽取应用中存在的问题
3.2 从正则表达式到与或树
3.3 切分特征及切分二义性问题
3.4 切分特征的递归计算
3.5 与或树上的二义性检查
3.5.1 组结点的合法性
3.5.2 “与”结点的合法性
3.5.3 有害二义性检查算法
3.6 本章小结
第四章 DE-树:面向复杂数据源的数据抽取模型
4.1 术语和基本概念
4.1.1 树和标记树
4.1.2 切分器和定位器
4.1.3 扩展正则表达式
4.1.4 ERE分析树
4.2 DE-树模型
4.2.1 实例和实例记录
4.2.2 结点的基本特征和结点分类
4.2.3 DE-树
4.3 DE-树上的数据抽取逻辑
4.3.1 结点实例记录定位器的递归构造
4.3.2 结点实例记录不存在性判定
4.3.3 结点的定位能力
4.3.3.1 结点的实例记录定位能力
4.3.3.2 结点的实例定位能力
4.3.4 DE-树合法性检查
4.3.4.1 外部结点的合法性
4.3.4.2 有序内部结点的合法性
4.3.4.3 无序结点的合法性
4.3.4.4 L-树:合法的DE-树
4.4 本章小结
第五章 L-树匹配:面向复杂数据源的数据抽取算法
5.1 L-树上的数据库映射机制
5.1.1 L-树上的表和属性
5.1.2 数据库模式树
5.1.3 从 DS-树到关系数据库模式
5.1.4 面向海量文本流的数据抽取框架
5.1.5 合并操作的实现
5.2 L-树匹配算法的相关概念
5.2.1 L-树匹配算法的基本操作和匹配噪声
5.2.2 匹配约束
5.2.3 部分匹配
5.2.4 L-树匹配算法轮廓
5.2.5 约束识别定位噪声的能力
5.3 L-树匹配算法的实现
5.3.1 传统匹配
5.3.2 有序匹配
5.3.3 无序匹配
5.4 L-树匹配算法举例
5.5 本章小结
第六章 基于L-树的包装器生成工具
6.1 将ERE扩充成数据抽取脚本语言
6.2 L-树包装器生成工具的可视化编辑调试环境
6.2.1 ERE的可视化构建
6.2.2 ERE的逻辑检查
6.2.3 抽取结果的可视化评价
6.3 以XML格式输出抽取结果
6.4 L-树包装器生成工具的质量评价
6.5 L-树包装器的实际应用情况介绍
6.6 本章小结
第七章 总结与展望
7.1 总结
7.2 展望
参考文献
附录 Perl正则表达式简介
攻读博士学位期间作者的工作成果
致谢
发布时间: 2005-09-19
参考文献
- [1].基于条件概率图模型的Deep Web数据抽取与集成研究[D]. 黄健斌.西安电子科技大学2007
- [2].Deep Web数据抽取及精炼方法研究[D]. 辛洁.苏州大学2014
- [3].基于本体演化的Deep Web数据抽取与注释[D]. 陈珂锐.吉林大学2011
- [4].面向开源社区的Web数据抽取与挖掘关键技术研究[D]. 朱沿旭.国防科学技术大学2011
- [5].基于知识管理的办公系统智能化研究[D]. 邓文红.西南交通大学2014
相关论文
- [1].高维数据挖掘中若干关键问题的研究[D]. 杨风召.复旦大学2003
- [2].文本分类及其相关技术研究[D]. 李荣陆.复旦大学2005
- [3].文本挖掘若干关键技术研究[D]. 陈晓云.复旦大学2005
- [4].基于特征分析的金融时间序列挖掘若干关键问题研究[D]. 黄超.复旦大学2005
- [5].数据库加密技术及其应用研究[D]. 王正飞.复旦大学2005
- [6].结构数据挖掘与处理的若干问题的研究[D]. 王晨.复旦大学2005
- [7].XML数据的查询、转换和集成[D]. 郭志懋.复旦大学2005
- [8].企业应用集成架构研究与实现[D]. 陈亚华.复旦大学2005
- [9].LAV数据集成系统的查询处理[D]. 陈彤兵.复旦大学2005
- [10].生物学数据集成若干关键问题研究[D]. 曹顺良.复旦大学2005