面向归档数据的存储管理技术研究

面向归档数据的存储管理技术研究

论文摘要

信息数字化趋势加快,数字信息量迅猛增长,存储具有长期保存、不可更改、极少访问、规模巨大、动态增长等特点的归档数据困难重重,却具有重大的社会价值。归档存储作为新兴研究热点,具有广阔的应用前景,其中空间利用率、检索效率、数据完整性、扩展性和灾难恢复是关键问题。本文在深入分析归档数据特点的基础上,针对归档存储涉及的几个关键问题进行了深入研究,提出了一种高效的大规模归档存储框架结构LAS和若干新颖有效的数据存储和管理算法。主要的工作如下:提出一种基于文档聚类、分块存储、两级索引、二维CRS编码和自动检错技术的大规模归档存储框架结构LAS;提出一种基于动态区间映射的文档聚类算法,依据特征集动态映射,实现内容相似文档聚集存储,具有聚类效果稳定、空间利用率高、检索灵活高效、扩展性好等特点;采用一种基于分块两级索引的数据布局算法,通过构建两级索引,提供内容寻址存储、基于内容和关键词的检索,具有索引空间开销呈次线性增长、检索性能好、扩展灵活等优点;提出一种基于二维CRS编码的数据完整性保证方法,通过双驱动自动检错和两级CRS容错编码实现数据检错和恢复,能有效保证归档存储系统的数据完整性并控制功耗;利用上述研究成果,实现了一个LAS归档存储原型系统LASPS,满足了测试分析相关算法性能的需要,并为LAS归档存储系统的实现提供了关键技术支持。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 信息数字化
  • 1.1.2 法规遵从
  • 1.1.3 信息的价值
  • 1.1.4 归档存储
  • 1.2 相关的研究工作
  • 1.2.1 信息聚类
  • 1.2.2 信息检索
  • 1.2.3 数据布局
  • 1.2.4 数据完整性
  • 1.3 本文的研究工作
  • 1.3.1 研究目标
  • 1.3.2 研究内容
  • 1.3.3 主要创新
  • 1.4 论文结构
  • 第二章 归档存储系统框架结构
  • 2.1 存储框架结构的演进
  • 2.2 典型存储框架结构分析
  • 2.2.1 SAN 和NAS
  • 2.2.2 OSD
  • 2.2.3 CAS
  • 2.3 LAS 存储框架结构
  • 2.3.1 系统组成
  • 2.3.2 数据流程
  • 2.3.3 关键技术
  • 2.3.4 系统灵活性
  • 2.4 小结
  • 第三章 基于动态区间映射的文档聚类算法
  • 3.1 动态区间映射
  • 3.1.1 Monte Carlo 方法
  • 3.1.2 动态区间映射思想
  • 3.1.3 基于动态区间映射的聚类思想
  • 3.2 基于动态区间映射的文档聚类算法
  • 3.2.1 符号约定与基本定义
  • 3.2.2 算法思想
  • 3.2.3 算法描述
  • 3.3 算法分析
  • 3.3.1 聚类效果分析
  • 3.3.2 检索性能分析
  • 3.3.3 扩展性分析
  • 3.4 实验测试与分析
  • 3.4.1 聚类效果实验
  • 3.4.2 检索性能实验
  • 3.4.3 系统扩展实验
  • 3.4.4 结果分析
  • 3.5 小结
  • 第四章 基于分块两级索引的数据布局算法
  • 4.1 关键技术
  • 4.1.1 基于内容检索
  • 4.1.2 索引
  • 4.1.3 数据布局
  • 4.2 基于分块两级索引的数据布局算法
  • 4.2.1 符号约定
  • 4.2.2 算法思想
  • 4.2.3 算法描述
  • 4.3 算法分析
  • 4.3.1 复杂度
  • 4.3.2 空间效率分析
  • 4.3.3 时间效率分析
  • 4.3.4 功能分析
  • 4.4 实验测试与分析
  • 4.4.1 索引空间开销实验
  • 4.4.2 索引更新效率实验
  • 4.4.3 基于内容检索实验
  • 4.4.4 基于关键词检索实验
  • 4.4.5 结果分析
  • 4.5 小结
  • 第五章 基于二维CRS 编码的数据完整性保证方法
  • 5.1 容错编码
  • 5.1.1 容错能力
  • 5.1.2 空间性能
  • 5.1.3 时间性能
  • 5.1.4 数据部署
  • 5.2 自动检错技术
  • 5.2.1 检错算法
  • 5.2.2 检错策略
  • 5.2.3 存储设备
  • 5.3 基于二维CRS 编码的数据完整性保证方法
  • 5.3.1 基本思想
  • 5.3.2 算法描述
  • 5.3.3 存取性能分析
  • 5.4 可靠性分析
  • 5.4.1 RS-Group 数据可靠性分析
  • 5.4.2 OSD 数据可靠性分析
  • 5.4.3 LAS 系统数据可靠性分析
  • 5.5 小结
  • 第六章 原型系统设计与实现
  • 6.1 总体结构
  • 6.2 模块设计
  • 6.2.1 存储模块
  • 6.2.2 检索模块
  • 6.2.3 系统模块
  • 6.3 实验设计
  • 6.3.1 DC-DIM 相关实验
  • 6.3.2 DP-C2LI 相关实验
  • 6.4 小结
  • 第七章 结束语
  • 7.1 工作总结
  • 7.2 研究展望
  • 致谢
  • 参考文献
  • 攻读硕士期间发表的主要学术论文
  • 相关论文文献

    • [1].一个网络归档存储中实用的数据持有性检查方案[J]. 计算机研究与发展 2009(10)
    • [2].归档存储——高效利用电脑的捷径[J]. 才智 2014(19)
    • [3].基于动态区间映射的文档聚类算法[J]. 计算机科学 2010(06)

    标签:;  ;  ;  ;  ;  ;  ;  

    面向归档数据的存储管理技术研究
    下载Doc文档

    猜你喜欢