论文摘要
信息数字化趋势加快,数字信息量迅猛增长,存储具有长期保存、不可更改、极少访问、规模巨大、动态增长等特点的归档数据困难重重,却具有重大的社会价值。归档存储作为新兴研究热点,具有广阔的应用前景,其中空间利用率、检索效率、数据完整性、扩展性和灾难恢复是关键问题。本文在深入分析归档数据特点的基础上,针对归档存储涉及的几个关键问题进行了深入研究,提出了一种高效的大规模归档存储框架结构LAS和若干新颖有效的数据存储和管理算法。主要的工作如下:提出一种基于文档聚类、分块存储、两级索引、二维CRS编码和自动检错技术的大规模归档存储框架结构LAS;提出一种基于动态区间映射的文档聚类算法,依据特征集动态映射,实现内容相似文档聚集存储,具有聚类效果稳定、空间利用率高、检索灵活高效、扩展性好等特点;采用一种基于分块两级索引的数据布局算法,通过构建两级索引,提供内容寻址存储、基于内容和关键词的检索,具有索引空间开销呈次线性增长、检索性能好、扩展灵活等优点;提出一种基于二维CRS编码的数据完整性保证方法,通过双驱动自动检错和两级CRS容错编码实现数据检错和恢复,能有效保证归档存储系统的数据完整性并控制功耗;利用上述研究成果,实现了一个LAS归档存储原型系统LASPS,满足了测试分析相关算法性能的需要,并为LAS归档存储系统的实现提供了关键技术支持。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.1.1 信息数字化1.1.2 法规遵从1.1.3 信息的价值1.1.4 归档存储1.2 相关的研究工作1.2.1 信息聚类1.2.2 信息检索1.2.3 数据布局1.2.4 数据完整性1.3 本文的研究工作1.3.1 研究目标1.3.2 研究内容1.3.3 主要创新1.4 论文结构第二章 归档存储系统框架结构2.1 存储框架结构的演进2.2 典型存储框架结构分析2.2.1 SAN 和NAS2.2.2 OSD2.2.3 CAS2.3 LAS 存储框架结构2.3.1 系统组成2.3.2 数据流程2.3.3 关键技术2.3.4 系统灵活性2.4 小结第三章 基于动态区间映射的文档聚类算法3.1 动态区间映射3.1.1 Monte Carlo 方法3.1.2 动态区间映射思想3.1.3 基于动态区间映射的聚类思想3.2 基于动态区间映射的文档聚类算法3.2.1 符号约定与基本定义3.2.2 算法思想3.2.3 算法描述3.3 算法分析3.3.1 聚类效果分析3.3.2 检索性能分析3.3.3 扩展性分析3.4 实验测试与分析3.4.1 聚类效果实验3.4.2 检索性能实验3.4.3 系统扩展实验3.4.4 结果分析3.5 小结第四章 基于分块两级索引的数据布局算法4.1 关键技术4.1.1 基于内容检索4.1.2 索引4.1.3 数据布局4.2 基于分块两级索引的数据布局算法4.2.1 符号约定4.2.2 算法思想4.2.3 算法描述4.3 算法分析4.3.1 复杂度4.3.2 空间效率分析4.3.3 时间效率分析4.3.4 功能分析4.4 实验测试与分析4.4.1 索引空间开销实验4.4.2 索引更新效率实验4.4.3 基于内容检索实验4.4.4 基于关键词检索实验4.4.5 结果分析4.5 小结第五章 基于二维CRS 编码的数据完整性保证方法5.1 容错编码5.1.1 容错能力5.1.2 空间性能5.1.3 时间性能5.1.4 数据部署5.2 自动检错技术5.2.1 检错算法5.2.2 检错策略5.2.3 存储设备5.3 基于二维CRS 编码的数据完整性保证方法5.3.1 基本思想5.3.2 算法描述5.3.3 存取性能分析5.4 可靠性分析5.4.1 RS-Group 数据可靠性分析5.4.2 OSD 数据可靠性分析5.4.3 LAS 系统数据可靠性分析5.5 小结第六章 原型系统设计与实现6.1 总体结构6.2 模块设计6.2.1 存储模块6.2.2 检索模块6.2.3 系统模块6.3 实验设计6.3.1 DC-DIM 相关实验6.3.2 DP-C2LI 相关实验6.4 小结第七章 结束语7.1 工作总结7.2 研究展望致谢参考文献攻读硕士期间发表的主要学术论文
相关论文文献
- [1].一个网络归档存储中实用的数据持有性检查方案[J]. 计算机研究与发展 2009(10)
- [2].归档存储——高效利用电脑的捷径[J]. 才智 2014(19)
- [3].基于动态区间映射的文档聚类算法[J]. 计算机科学 2010(06)
标签:归档存储论文; 文档聚类论文; 分块存储论文; 信息检索论文; 数据布局论文; 数据完整性论文; 扩展性论文;