Web环境中半结构化数据存储与查询技术研究

Web环境中半结构化数据存储与查询技术研究

论文题目: Web环境中半结构化数据存储与查询技术研究

论文类型: 博士论文

论文专业: 计算机科学与技术

作者: 秦杰

导师: 窦文华

关键词: 半结构化数据,模式,正则路径表达式,数据模型,存储模型,模型映射,结构索引,路径连接,编码模式

文献来源: 国防科学技术大学

发表年度: 2005

论文摘要: 互联网中蕴藏着丰富的信息,如何从浩如烟海的网络信息中快速、有效地查找用户需要的信息一直是网络应用的一个难题。网络信息有相当部分是基于Web的半结构化(semi-structured)数据。半结构化数据的内容与结构相关联,没有统一的结构。随着Web信息的不断膨胀,单纯靠字符串匹配方式从Web中获取用户需要的信息越来越困难。XML是一种半结构化数据描述语言,它克服了传统Web描述语言HTML只能够表达数据的内容,无法表达Web数据的结构特征,不便于半结构化数据查询这一不足,正在逐步替代HTML,成为新一代Web数据描述与数据交换标准。大量XML数据的出现,产生了对XML数据管理的需求。 由于XML描述的Web数据具有半结构化特征,使得以往主要面向结构化数据或者非结构化数据的研究成果不能很好地应用于Web数据处理,因而传统的数据管理方式(如关系数据库管理方式、面向对象数据库管理方式等)不能适应对XML描述的Web数据的管理需求。半结构化数据管理问题成为当前Web数据处理领域的一个研究热点,其中XML描述的半结构化数据的有效存储和查询是Web数据管理的难点问题。 本文围绕XML表达的Web数据存储和查询问题展开研究,研究内容和取得的成果主要体现在以下四方面: 1.数据模型 Web数据模型是对Web数据进行有效管理的前提。数据的有效查询是数据管理的一项重要内容。现有Web数据模型存在两个问题影响Web数据的有效查询:(1) 数据异构问题:由不同Web页面对同一数据对象的命名和描述差异所造成的数据异构问题,对多数据源集成造成了困难,影响了信息查询结果的完全性;(2) 查询回路问题:Web页面之间的超级链接引起的多个页面之间的循环引用,在基于路径的半结构化数据查询过程中会形成查询回路,导致大量重复、无效的查询结果。 针对这两个问题,本文提出了一种新的基于XML的Web数据模型——XWDM。该模型通过对XQuery 1.0和XPath 2.0数据模型的扩充,较好地解决了上述两个问题。 2.数据存储 针对Web环境中半结构化数据没有统一的模式,不便于存储管理这一问题,采用模型映射方式,提出了一种新型的基于关系数据库的半结构化数据存储模型——XPED。 XPED存储模型主要由数据模型,映射模式,索引模式,查询转换以及查询算法五部分构成。该存储模型针对半结构化数据到关系表格数据映射(mapping)这一难题,创造性地提出了三表映射模式,较好地解决了现有映射方式中存在的问题。能够有效地将Web中没有统一模式的XML数据及其附带的结构信息映射为关系数据库中的关系表,从而将基于XML的Web信息查找转换成基于关系数据库的数据查询。该存储模型能够充分利用

论文目录:

图索引

表索引

摘要

ABSTRACT

第一章 绪论

§1.1 课题背景

§1.2 国内外相关研究现状

1.2.1 XML数据存储问题

1.2.2 基于XML的数据查询问题

1.2.3 其它相关问题

§1.3 本文研究内容

§1.4 本文创新点与应用价值

1.4.1 本文创新点

1.4.2 应用价值

§1.5 本文结构

第二章 基于XML的WEB数据模型

§2.1 XML基础

2.1.1 XML文档构成

2.1.2 XML文档的两种类型

2.1.3 XML相关技术规范

§2.2 半结构化数据模型

2.2.1 对象交换模型

2.2.2 XML数据模型

§2.3 基于XML的WEB数据模型——-XWDM

2.3.1 XWDM图

2.3.2 XWDM与XML文档的匹配

2.3.3 基于XWDM的XML文档树

2.3.4 基于XWDM的路径表达式和查询语法

2.3.5 XWDM对查询的支持

§2.4 XWDM应用举例

§2.5 本章小结

第三章 基于模型映射的WEB数据存储模型

§3.1 存储XML数据的主要方式分析

3.1.1 文件系统

3.1.2 面向对象数据库

3.1.3 关系(对象-关系)数据库

3.1.4 原生XML数据库

§3.2 基于关系数据库的XML数据存储问题进一步讨论

§3.3 基于模型映射的WEB数据存储模型——XPED

3.3.1 Web数据图

3.3.2 XML文档模式到关系模式的映射

3.3.3 XPED存储模式

3.3.4 查询转换

3.3.5 XPED模型的数据查询算法

§3.4 XPED存储模型与相关研究的比较

3.4.1 相关研究

3.4.2 性能测试

§3.5 本章小结

第四章 并行查询XML数据

§4.1 基于集群的并行查询环境

§4.2 并行环境下的XML数据存储策略

4.2.1 并行数据存储模型

4.2.2 数据放置策略

§4.3 并行索引模式

4.3.1 无重复信息的索引模式

4.3.2 带有部分重复信息的索引模式

4.3.3 信息完全重复的索引模式

§4.4 并行查询任务的处理机分配策略

4.4.1 查询响应时间与处理机数的关系

4.4.2 处理机分配策略

4.4.3 性能测试

§4.5 并行查询算法

4.5.1 并行自顶向下查询

4.5.2 并行自底向上查询

4.5.3 并行混合查询

§4.6 性能评价

4.6.1 查询性能估算

4.6.2 查询性能实验

§4.7 本章小结

第五章 基于结构特征的XML数据查询

§5.1 XML数据查询的基本原理

§5.2 现有的主要查询优化方法

5.2.1 基于路径的索引

5.2.2 基于不同编码模式的路径连接算法

5.2.3 其它查询优化方法

§5.3 基于结构特征的XML数据查询算法

5.3.1 树匹配的有关概念

5.3.2 树匹配与串匹配

5.3.3 三元编码模式

5.3.4 查询算法

§5.4 BMS算法性能测试

§5.5 本章小结

第六章 结束语

§6.1 工作总结

§6.2 未来工作展望

致谢

攻读博士学位期间撰写和发表的论文

攻读博士学位期间参与的科研工作

参考文献

发布时间: 2006-09-22

参考文献

  • [1].半结构化数据集成系统中的查询处理研究[D]. 陶春.复旦大学2004
  • [2].面向半结构化数据的数据模型和数据挖掘方法研究[D]. 孙涛.吉林大学2010
  • [3].半结构化数据挖掘若干问题研究[D]. 李巍.吉林大学2013
  • [4].XML文档数据集聚类问题研究[D]. 刘兆军.吉林大学2015
  • [5].基于半结构化数据的数据流挖掘算法研究[D]. 冯博.北京邮电大学2011
  • [6].基于本体的计算机支持协同学习关键技术研究[D]. 王真星.复旦大学2003

相关论文

  • [1].面向半结构化数据的数据模型和数据挖掘方法研究[D]. 孙涛.吉林大学2010
  • [2].基于关系数据库的XML数据存储、更新和检索[D]. 胥正川.复旦大学2003
  • [3].半结构化数据集成系统中的查询处理研究[D]. 陶春.复旦大学2004
  • [4].基于XML的产品数据模式、存储及共享模型的研究[D]. 陆静平.重庆大学2003
  • [5].XML数据的查询、转换和集成[D]. 郭志懋.复旦大学2005
  • [6].XML数据库查询及其模式集成研究[D]. 徐德智.中南大学2004
  • [7].XML数据库查询优化及相关技术研究[D]. 孙伟.哈尔滨工程大学2006
  • [8].面向对象的XML数据管理技术研究[D]. 张晓琳.东北大学2006
  • [9].XML非完全结构查询处理中若干关键技术的研究[D]. 李晓光.东北大学2006
  • [10].对结构化和半结构化数据的关键字搜索研究[D]. 许建军.复旦大学2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

Web环境中半结构化数据存储与查询技术研究
下载Doc文档

猜你喜欢