内容感知存储系统中信息信息生命周期管理关键技术研究

内容感知存储系统中信息信息生命周期管理关键技术研究

论文摘要

随着存储系统智能化需求的不断提高,越来越多的应用层功能开始融入存储系统,例如自主管理,数据安全以及信息检索等。传统的存储系统以块级或对象级数据处理为主,缺乏文件级信息,无法将信息生命周期管理(Information Lifecycle Management, ILM)功能融入存储系统。遵循XAM (eXtensible Access Method)规范的内容感知存储(Content Aware Storage)系统,由于使用内容元数据(Content Metadata)对数据的文件级信息进行传载,因此为ILM融入存储系统提供了基础。研究ILM融入内容感知存储系统过程中涉及的关键技术,围绕着内容元数据构建信息整合、内容分类、分级存储、数据备份以及信息归档等ILM数据处理阶段。研究工作主要包括:提出并实现了一种基于内容元数据的信息整合方法。针对ILM数据处理需求制定了内容元数据规范,包括内容元数据的定义、提取、表示以及传输。以内容元数据为基础,从外在形式和内部语义两方面实现了非结构化信息数据的整合。设计并实现了支持内容元数据规范的存储系统原型,性能测试表明信息整合提高了数据预处理的速度,同时对存储系统的平均I/O性能影响极小。提出并实现了一种面向内容元数据的信息分类算法。针对内容元数据的分类特征数量少但语义质量高的特性,构造了一种基于特征词集合的内容元数据相似度计算模型。该模型根据训练样本中的特征词集合构造相似度矩阵,.并通过对矩阵进行平滑运算计算特征词之间的隐式相关性,以此为基础计算内容元数据的特征矢量。基于特征矢量,采用K-Means算法构造数据分类器。性能测试表明,该算法比传统的数据分类算法有着更高的精确度和互信息,并极大地降低了分类计算的时间。提出并实现了一种内容元数据驱动的分级存储模型,包括基于应用需求的分级存储与基于成本需求的分级存储。前者满足信息在备份、归档、安全以及访问控制等应用上的需求,后者侧重于降低单位信息的存储成本同时确保存储系统的I/O性能。提出了一种基于速率控制的自适应数据迁移算法,将数据迁移I/O对存储系统正常I/O的影响降至最低。性能测试表明,内容元数据驱动的分级存储模型能有效满足的信息数据的存储需求,同时不影响存储系统的整体性能。提出并实现了一种基于内容特征的重复数据删除算法。针对当前数据备份中重复数据删除算法未考虑不同文件类型的内容在比特值分布上的差异,采用候选边界直方图来表示文件类型的内容特征,并在此基础上对传统重复数据删除算法的关键参数进行优化。算法以降低不同文件类型之间的数据缩减率为代价,换取相同类型文件之间数据缩减率的提高。设计了一种支持变长数据块高效存储的文件系统TDFS。性能测试表明,该算法在特定数据集上对数据缩减率(Reduction Ratio)有较大提高。提出并实现了一种基于内容元数据的信息归档模型。通过引入支持OAIS (Open Archival Information System)归档规范的内容元数据标签,实现信息的逻辑保存。提出一种基于磁盘的软件WORM (Write Once Read Many)模型,通过修改磁盘功能划分以及对iSCSI命令的响应行为,实现信息的物理保存。通过对归档文件加密并在保存逾期后销毁密钥,实现了信息的安全销毁,同时提出了一种基于时间窗口的密钥管理机制降低密钥管理复杂度。性能测试表明,基于内容元数据的信息归档模型能有效满足归档信息的功能需求与性能需求。实验表明,内容感知存储系统能有效解决传统存储系统中缺乏文件级语义的问题,通过以内容元数据为核心来构建ILM模型中的关键数据处理阶段,不仅能简化ILM融入存储系统的复杂性,同时还能极大提高数据访问性能,满足存储系统的智能化需求。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 相关技术研究现状
  • 1.3 研究内容与创新
  • 1.4 本章小结
  • 2 基于内容元数据的信息整合
  • 2.1 内容元数据规范
  • 2.2 基于内容元数据实现信息整合
  • 2.3 支持内容元数据规范的存储系统体系结构
  • 2.4 性能测试
  • 2.5 本章小结
  • 3 面向内容元数据的信息分类
  • 3.1 传统分类算法分析
  • 3.2 内容元数据相似度计算模型
  • 3.3 数据分类器
  • 3.4 性能测试
  • 3.5 本章小结
  • 4 内容元数据驱动的分级存储
  • 4.1 基于应用需求的分级存储
  • 4.2 基于成本需求的分级存储
  • 4.3 自适应迁移模型
  • 4.4 性能测试
  • 4.5 本章小结
  • 5 基于内容特征的重复数据删除
  • 5.1 传统重复数据删除技术分析
  • 5.2 内容感知分块模式
  • 5.3 变长数据块的存储
  • 5.4 性能测试
  • 5.5 本章小结
  • 6 基于内容元数据的信息长期保存与安全销毁
  • 6.1 支持OAIS的信息逻辑保存
  • 6.2 支持WORM的信息物理保存
  • 6.3 基于密钥的数据安全销毁
  • 6.4 性能测试
  • 6.5 本章小结
  • 7 总结与展望
  • 7.1 全文总结
  • 7.2 研究展望
  • 7.3 本章小结
  • 致谢
  • 参考文献
  • 附录1 攻读博士学位期间发表的学术论文
  • 附录2 攻读博士学位期间申请的专利
  • 附录3 攻读博士学位期间参与的科研项目
  • 附录4 论文图索引
  • 附录5 论文表索引
  • 相关论文文献

    • [1].基于集中式架构的高速率大容量测量存储系统设计[J]. 电子技术与软件工程 2020(07)
    • [2].试议存储系统安全[J]. 电脑编程技巧与维护 2020(06)
    • [3].大数据环境下的存储系统构建:挑战、方法和趋势[J]. 大数据 2019(04)
    • [4].密集存储系统及其市场需求分析[J]. 物流技术与应用 2018(09)
    • [5].数据中心存储系统故障了怎么办[J]. 计算机与网络 2018(21)
    • [6].网络编码云存储系统差分数据更新方案[J]. 通信学报 2017(03)
    • [7].基于磁盘和固态硬盘的混合存储系统研究综述[J]. 计算机应用 2017(05)
    • [8].公有云存储系统性能评测方法研究[J]. 计算机应用 2017(05)
    • [9].安全云存储系统综述[J]. 科技视界 2017(05)
    • [10].移动云存储系统的关键问题与技术方案[J]. 福建电脑 2017(08)
    • [11].一种云存储系统分层性能监测和采集方法[J]. 西北工业大学学报 2016(03)
    • [12].基于开放云存储协议的云存储系统性能评测方法研究[J]. 电子设计工程 2016(19)
    • [13].一种云存储系统安全扩展框架设计[J]. 黑龙江科技信息 2014(31)
    • [14].云存储系统的分析与应用[J]. 信息技术与信息化 2014(07)
    • [15].云存储系统性能评测技术研究[J]. 计算机研究与发展 2014(S1)
    • [16].网络化存储系统在大数据时代应用与探讨[J]. 网络安全技术与应用 2015(05)
    • [17].分布式的电力云存储系统的优势分析和可行性研究[J]. 通讯世界 2015(12)
    • [18].医院PACS云存储系统建设途径[J]. 数码世界 2020(01)
    • [19].企业级蓝光归档存储系统[J]. 湖北画报(上旬) 2017(03)
    • [20].高端存储系统专题(之一) 高端存储系统发展展望[J]. 科技浪潮 2014(01)
    • [21].能源存储系统的类型和特点[J]. 信息技术与标准化 2013(09)
    • [22].虚拟化环境下存储系统的改进方法探索[J]. 成都航空职业技术学院学报 2013(04)
    • [23].云存储系统的分析与应用研究[J]. 计算机光盘软件与应用 2013(24)
    • [24].云存储系统的分析与应用探讨[J]. 数字技术与应用 2013(10)
    • [25].基于融合存储系统的数据容灾[J]. 现代计算机(专业版) 2013(34)
    • [26].融媒体云中心存储系统设计[J]. 广播电视信息 2020(05)
    • [27].子母穿梭车密集存储系统货位分配研究[J]. 制造业自动化 2020(06)
    • [28].面向大数据异构系统的神威并行存储系统[J]. 大数据 2020(04)
    • [29].密集存储技术及其应用[J]. 物流技术与应用 2018(09)
    • [30].基于块的分级存储系统多样性机制设计与研究[J]. 计算机工程 2016(12)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    内容感知存储系统中信息信息生命周期管理关键技术研究
    下载Doc文档

    猜你喜欢