数据网格中数据复制的研究

数据网格中数据复制的研究

论文摘要

网格计算是一个广域范围的分布式计算环境,它包括地理位置不同区域上的个体或协会这些协作者之间大规模的资源共享,这些协作者通常被称为虚拟组组织。数据网格是一种以传送和管理海量科学数据并且用于科学分析为为特定需求的网格基础设施。处理大量数据的科学应用和数据网格技术潜在受益的例子包括高能物理、天文学、生物信息学以及地球科学等。本文中,我们首先对与复制技术有关的研究成果进行了总结。特别是集中于已经提出的用于数据网格环境的数据副本放置策略。对于每一个副本放置技术,我们考虑它的方法、目标和结果。这些策略通过有关底层的网格拓扑结构,用户的请求模式,数据集的大小以及数据的分布、节点的存储能力等方面的假设有所不同。其他特点包括副本被放置到网格节点的数据请求路径和数据请求方式。面对树结构和别的体系结构之间变化多样的特征,找到一个共同点用于比较不同的复制策略是非常困难的。因此,我们把拓扑结构分为树结构和混合/P2P体系结构,并且分析在每一种体系结构下副本替换策略的影响。一个混合的拓扑结构能够具有树结构和P2P结构的特征,并且能够被用来获取一个复制策略的较好性能网格环境中数据复制的主要目标是通过把数据副本放置在接近用户的位置来加强数据的可用性,这样就可以最小化用户的感知响应时间。对于分等级的数据网格,副本通常以自顶向下或自底向上的方式来放置。我们提出了一种两路副本放置模式,它可以把最常用的文件副本放置到距离请求客户端近的位置,把不常用的文件副本分层放置到数据网格根节点下面。由兄弟结点和父结点来为数据请求提供服务。另外一个有趣的、和数据网格中文件副本放置有关的问题是副本服务器之间的负载共享。目前大多数的技术都是选择候选结点用于副本放置,这些候选结点具有最大的文件访问请求。但是,在访问负载和存储负载的基础上选择候选结点有可能产生更加有效的负载平衡复制策略,于是,我们提出了一种方法,称为公平-共享复制(FSR),它在分级的数据网格中放置任何副本之前需要考虑数据请求的数量和候选结点的存储负载。本文所提出的技术是通过使用GridNet系统来模拟实现的,GridNet系统的研制是为了用来评估数据网格中的复制策略。通过高能物理实验中有关数据网格环境的不同参数的设置来测试两路策略和公平-共享复制策略,性能结果说明了他们的有效性。数据网格环境的不同的设置是指用户访问模式,数据集大小,和服务器存储能力约束。

论文目录

  • 摘要
  • Abstract
  • List of Figures
  • List of Tables
  • Acronym
  • Chapter 1 Introduction
  • 1.1 Background
  • 1.1.1 Data Replication
  • 1.1.2 The Grid
  • 1.1.3 Data Management Problems in Grid
  • 1.1.4 Challenges of Data Replication
  • 1.2 Related Work
  • 1.2.1 Web Caching
  • 1.2.2 Replication in Distributed and Mobile Databases
  • 1.2.3 Grid Middleware for Replication and Related Services
  • 1.3 Motivation for Replica Placement
  • 1.4 Contributions of Thesis
  • 1.5 Thesis Organization
  • Chapter 2 Architecture Models for Replication in Data Grid
  • 2.1 Introduction
  • 2.2 Grid Architecture
  • 2.3 Major Characteristics of Grid
  • 2.4 Data Grid Models
  • 2.5 Replica Management in Data Grid
  • 2.6 A Scheme for Grid Architecture
  • 2.7 Peer-to-Peer Systems and Replication
  • 2.8 Hybrid Approach to Data Grid and Replication
  • 2.9 Summary
  • Chapter 3 Fast Distribution of Replicas Using Two-Way Replication
  • 3.1 Introduction
  • 3.2 Request Path and System Topology
  • 3.2.1 Request Path
  • 3.2.2 Data Access Model
  • 3.3 Top-Down Replica Placement Schemes
  • 3.3.1 Best Client
  • 3.3.2 Caching
  • 3.3.3 Cascading
  • 3.3.4 Caching plus Cascading
  • 3.3.5 Fast Spread
  • 3.4 Bottom-Up Methods for Replica Placement
  • 3.4.1 Simple Bottom Up
  • 3.4.2 Aggregate Bottom Up
  • 3.5 Two-way Replication Strategy (TWR)
  • 3.5.1 Replica Creation
  • 3.5.2 Replica Placement
  • 3.5.3 Replica Replacement Policy
  • 3.6 Experiments
  • 3.7 Summary
  • Chapter 4 Load Balancing Using Fair-Share Replication Scheme
  • 4.1 Introduction
  • 4.2 Fair-Share Replication Strategy (FSR)
  • 4.2.1 Replica Creation
  • 4.2.2 Replica Placement
  • 4.2.3 Replica Selection
  • 4.2.4 Replica Replacement Policy
  • 4.3 Simulation Results
  • 4.4 Summary
  • Chapter 5 Economic Storage Utilization and Replication Simulation
  • 5.1 Introduction
  • 5.2 Economic Storage Utilization
  • 5.2.1 Storage Units
  • 5.2.2 Storage Capacity in Data Grid
  • 5.2.3 Storage Utilization in Replication Techniques
  • 5.3 Simulation Study
  • 5.4 Dynamics of Request
  • 5.4.1 Request Generator (RG)
  • 5.4.1.1 Request parameters
  • 5.4.1.2 File Popularity
  • 5.4.1.3 File Size
  • 5.5 Internal Working
  • 5.6 Summary
  • Conclusions
  • References
  • Publications
  • Declaration
  • Acknowledgments
  • Resume
  • 相关论文文献

    标签:;  ;  ;  

    数据网格中数据复制的研究
    下载Doc文档

    猜你喜欢