分布式存储系统文件级连续数据保护技术研究

分布式存储系统文件级连续数据保护技术研究

论文摘要

随着信息时代数据规模的急剧增长和数据价值的不断提升,存储系统必须具有良好的可扩展性并采取有效的措施来保障用户数据的可靠性、安全性和存取的高性能。为了适应信息时代海量数据对存储系统各方面性能的需求,分布式存储系统成为了研究热点,它满足了海量数据对系统可扩展性的要求,同时又能利用体系结构优势增加系统的可靠性和性能。而另一方面由于计算机病毒、黑客攻击以及人为误操作等造成的数据失效,以及一些对数据历史要求严格,或对备份窗口敏感的应用,则需要存储系统尽可能减少数据恢复点时间间隔(RPO)。传统的数据备份技术已经不能很好的适应这些新出现的需求。连续数据保护技术(CDP)可以解决这样的问题,通过将数据保护扩展到实时,RPO缩小到了每次数据改写,连续数据保护技术能为关键应用提供充分技术支撑。面向分布式存储系统的连续数据保护技术将为存储系统提供连续时间上的数据保护,同时存储系统分布式体系结构的并行性又能优化连续数据保护带来的性能和容量开销,其可扩展性又可以解决备份数据不断增长的问题。融合了连续数据保护元数据管理的分布式文件系统将为分布式存储系统提供文件级的连续数据保护功能。在研究现有连续数据保护机制的基础上,面向分布式存储环境设计了一种的将分布式文件系统元数据管理机制以及连续数据保护元数据管理机制结合起来的文件系统。扩展了传统的元数据组织结构,由一维增加时间维度变为二维,从而很好的实现了连续数据保护元数据管理的融合,并且针对连续数据保护应用优化了元数据管理策略,使得在数据保护与数据恢复时的时间开销得以降低。同时得益于文件系统级的实现方式,通过历史元数据的运用使得文件的历史视图的实现变得简单,系统可以在极低开销的情况下提供指定文件任意时间点历史的查看。为了进一步减小应用连续数据保护功能而带来的时间开销,研究了在分布式环境下充分利用系统架构进行优化的方法。通过设计合适的数据分条分配及管理策略,可以在数据操作过程中充分利用分布式系统的并行度。通过设计针对连续数据保护的读预取及写合并等方法,使得在数据传输、备份、恢复时能充分利用分布式系统的并行度,进一步减少应用连续数据保护所带来的性能开销。针对文件内数据移动这种造成连续数据保护效率极大下降的情况,研究并扩展了标准的POSIX文件系统接口,提出了插入写及删除写语义。新的应用程序利用这两个语义可以直接提高连续数据保护的效率。对于传统应用程序,研究并设计了客户端针对数据改写行为的各种侦测方法,在用户程序透明的情况对插入写及删除写操作进行识别并提取插入数据、删除数据的详细信息,为元数据服务器进一步处理做准备。为了进一步减少备份数据量,研究了基于数据内容比较的方法,以消除重复数据备份以及精确的获取每次数据改变的字节级信息来实现差异数据备份。得益于基于对象的存储服务器实现,将基于数据分条内容的数据备份元数据封闭在存储服务器内部,做到对分布式文件系统元数据管理最小的影响。在不影响数据传输而又充分利用存储节点计算能力的前提下,研究并优化了差异数据备份的策略。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 数据可靠性需求
  • 1.2 连续数据保护技术发展现状及面临的挑战
  • 1.3 分布式存储技术研究现状
  • 1.4 分布式存储系统应用连续数据保护的优势
  • 1.5 本文研究目的、思路和主要内容
  • 1.6 课题的来源
  • 2 连续数据保护的元数据管理
  • 2.1 引言
  • 2.2 优化连续数据保护的元数据管理策略
  • 2.3 连续数据保护性能影响因素的理论分析
  • 2.4 相关实验及结果分析
  • 2.5 本章小结
  • 3 多并行度的分布式连续数据保护机制
  • 3.1 引言
  • 3.2 并发读写操作优化
  • 3.3 并行数据保护及数据恢复操作优化
  • 3.4 性能改进的理论分析
  • 3.5 相关操作的对比测试
  • 3.6 本章小结
  • 4 数据移动的文件系统语义
  • 4.1 引言
  • 4.2 插入写操作的文件系统语义
  • 4.3 删除写操作的文件系统语义
  • 4.4 客户端实现机制
  • 4.5 性能开销与备份数据量的理论分析
  • 4.6 相关测试及结果分析
  • 4.7 本章小结
  • 5 基于数据分条的差异数据备份策略
  • 5.1 引言
  • 5.2 针对备份数据量的元数据管理优化策略
  • 5.3 针对分条数据的差异数据备份策略
  • 5.4 差异化操作性能开销的理论分析
  • 5.5 相关测试及结果分析
  • 5.6 本章小结
  • 6 全文总结
  • 6.1 总结
  • 6.2 本文的主要创新点
  • 6.3 未来工作展望
  • 致谢
  • 参考文献
  • 附录1 攻读博士学位期间发表论文目录
  • 相关论文文献

    • [1].“异地多活”分布式存储系统设计和实现[J]. 计算机测量与控制 2020(04)
    • [2].分布式存储系统中使用马尔可夫链的可靠性分析[J]. 计算机应用研究 2020(S1)
    • [3].分布式存储系统在企业档案管理中的应用[J]. 哈尔滨轴承 2020(02)
    • [4].异构分布式存储系统中部分重复码的构造[J]. 信息通信 2019(01)
    • [5].分布式存储系统在通信运营商云计算资源池的应用研究[J]. 通讯世界 2017(16)
    • [6].云计算分布式存储系统典型运维问题的分析[J]. 通信与信息技术 2017(05)
    • [7].基于分布式存储系统的数据认证和安全保障研究[J]. 中国电子科学研究院学报 2015(06)
    • [8].差异分布式存储系统资源调度的优化仿真[J]. 计算机仿真 2016(03)
    • [9].分布式存储系统文件级连续数据保护技术研究[J]. 通讯世界 2015(09)
    • [10].分布式存储系统CEPH研究与试用[J]. 数码世界 2017(07)
    • [11].面向海量无线电监测数据的分布式存储系统研究[J]. 成都工业学院学报 2015(02)
    • [12].浅析分布式存储系统的研究及应用[J]. 网络安全技术与应用 2014(09)
    • [13].分布式存储系统中数据副本管理机制[J]. 计算机技术与发展 2013(02)
    • [14].基于开源软件搭建高校分布式存储系统探讨与分析[J]. 信息通信 2017(04)
    • [15].分布式存储系统副本数据一致性维护研究[J]. 电脑迷 2016(01)
    • [16].分布式存储系统调查[J]. 企业科技与发展 2011(16)
    • [17].基于链路带宽的分布式存储系统框架及动态负载均衡技术[J]. 北京理工大学学报 2017(09)
    • [18].分布式存储系统的数据冗余策略[J]. 武汉大学学报(工学版) 2015(02)
    • [19].导弹全寿命周期大数据分布式存储系统研究[J]. 弹箭与制导学报 2020(05)
    • [20].网络编码的分布式存储系统理论分析[J]. 北京邮电大学学报 2009(03)
    • [21].分布式存储系统最小带宽再生码研究[J]. 小型微型计算机系统 2012(08)
    • [22].基于并发策略的分布式文件系统性能优化方案[J]. 网络安全技术与应用 2013(07)
    • [23].分布式存储系统介绍及其数据一致性实现方法探究[J]. 企业技术开发 2012(22)
    • [24].一种基于最大流的分布式存储系统中查询任务最优分配算法[J]. 计算机学报 2019(08)
    • [25].分布式存储系统中容错技术综述[J]. 无线电通信技术 2019(05)
    • [26].分布式存储系统在报社的应用[J]. 中国传媒科技 2016(04)
    • [27].面向本地分布式存储系统的动态副本策略[J]. 计算机工程与应用 2010(12)
    • [28].基于分布式存储系统的数据布局策略研究[J]. 现代计算机 2019(21)
    • [29].大规模分布式存储系统中数据修复策略的研究[J]. 互联网天地 2013(02)
    • [30].分布式存储系统在液晶面板制造数据仓库中的设计[J]. 电子制作 2016(15)

    标签:;  ;  ;  ;  ;  ;  

    分布式存储系统文件级连续数据保护技术研究
    下载Doc文档

    猜你喜欢