海量非结构化数据的组织研究与实现

海量非结构化数据的组织研究与实现

论文摘要

计算机应用的不断发展导致了数据量的急剧增加,由于数据结构化过程受限于人工处理速度,导致非结构化数据的增长速度远远大于结构化数据。传统上使用文件目录树组织管理大规模非结构化数据的方案存在很大缺陷。文件目录树不能很好地表达非结构化数据自身以及数据之间语义关系的多样性,同时在大规模数据集下维护文件目录树的一致性会非常困难而且开销极大。因此,对海量非结构化数据的组织进行研究,成为如今迫在眉睫的问题。通过介绍分析文件目录树、索引及检索、数据库、语义文件系统等数据组织管理的方法,结合海量非结构化数据组织管理的需求(用户参与、自动化、模式提取等),设计并实现了海量非结构化数据组织管理系统MUDOMS(Massive Unstructured Data Organization and Management System)。MUDOMS通过对象模型来表示数据,使用属性值对来描述数据的特征,提供接口让用户根据理解来创建属性值对,为属性之间创建关系,记录了用户对数据的理解处理过程,系统还采用混合索引机制THLI(Tree Hash and Link-list Indexing)对属性和关系进行索引,MUDOMS还提供了热点导航,通过导航的方式来方便用户快速获取数据。根据用户习惯,系统还为用户创建了个性化的逻辑视图,不同的分类方式和显示次序的个性化逻辑视图方便用户的使用。在用户参与产生属性值对的基础上,还分析了属性、关系自动化生成和组织的策略机制。通过时间、空间和上下文等关系,可以实现属性关系的自动生成、传递,进而可以对系统已有的属性关系再进行组织。通过对比测试,MUDOMS在功能上实现了一种海量非结构化数据组织管理的方案,加入了人工智能提取语义属性。在与同类软件(百度硬盘搜索和Google desktop)对比测试中,MUDOMS对文件索引所占用的空间比同类软件降低了60%,用于索引的时间降低了70%,在内存容量允许的情况下,通过THLI索引机制对数据进行检索,性能提高了20倍。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 课题来源
  • 1.2 课题的目的及意义
  • 1.3 国内外研究现状
  • 1.4 本文研究的目的和内容
  • 1.5 本文的组织
  • 2 信息数据组织与管理
  • 2.1 结构化数据组织
  • 2.2 非结构化数据组织
  • 2.3 海量非结构化数据的组织需求
  • 2.4 本章小结
  • 3 海量非结构化数据组织系统设计
  • 3.1 系统功能模块划分
  • 3.2 系统的数据模型
  • 3.3 属性的获取策略
  • 3.4 属性组织策略
  • 3.5 属性的索引机制
  • 3.6 属性的存储策略
  • 3.7 逻辑视图个性化
  • 3.8 本章小结
  • 4 海量非结构化数据组织系统实现
  • 4.1 软件模块划分
  • 4.2 主要数据结构
  • 4.3 系统的主要流程及实现
  • 4.4 本章小结
  • 5 海量非结构化数据组织系统测试
  • 5.1 系统测试环境
  • 5.2 系统功能测试
  • 5.3 导入文件性能测试
  • 5.4 检索文件性能测试
  • 5.5 本章小结
  • 6 全文总结
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].安全问题不是大数据发展拦路虎[J]. 网络安全和信息化 2016(07)
    • [2].基于深度学习模型的非结构化数据标注方法研究[J]. 西北民族大学学报(自然科学版) 2020(02)
    • [3].面向大数据的音乐艺术院校非结构化资源的管理与应用[J]. 科教文汇(上旬刊) 2020(08)
    • [4].大数据时代下的数据仓库新升级[J]. 金融电子化 2017(07)
    • [5].分析非结构化数据的10个要点[J]. 电脑知识与技术(经验技巧) 2017(12)
    • [6].铁路货运非结构化数据的应用与应用框架研究[J]. 交通运输工程与信息学报 2017(01)
    • [7].企业非结构化数据元数据模型设计[J]. 云南电力技术 2016(S2)
    • [8].浅析非结构化电子文件[J]. 兰台世界 2016(16)
    • [9].基于素质教育的地理非结构化教学研究[J]. 中学教学参考 2020(10)
    • [10].运用非结构化材料 创造无限教育价值[J]. 基础教育研究 2017(18)
    • [11].“大数据”的温情[J]. 中小学信息技术教育 2017(05)
    • [12].面向中文科技文献非结构化摘要的知识元表示与抽取研究——基于知识元本体理论[J]. 情报理论与实践 2020(02)
    • [13].基于关键词检索的非结构化数据审计应用研究[J]. 中国内部审计 2020(04)
    • [14].非结构化道路识别研究综述[J]. 科技资讯 2019(02)
    • [15].大型企业非结构化数据管理平台设计[J]. 中国科技信息 2019(07)
    • [16].非结构化机器数据范式化处理的研究[J]. 现代信息科技 2018(06)
    • [17].非结构化数据安全需关注[J]. 网络安全和信息化 2016(02)
    • [18].非结构化电子病历关系抽取的机器学习[J]. 中国数字医学 2017(06)
    • [19].面向云存储的非结构化数据存储研究[J]. 计算机光盘软件与应用 2014(19)
    • [20].开放教育对学生流动非结构化管理的策略研究[J]. 当代教育实践与教学研究 2015(09)
    • [21].非结构化材料在大班表现性活动区中的有效运用[J]. 新课程(综合版) 2018(05)
    • [22].非结构化数据存储管理研究[J]. 科研信息化技术与应用 2013(01)
    • [23].一种非结构化数据的多牵度分配存取实现方法[J]. 科技通报 2014(08)
    • [24].基于主体行为的非结构化数据模型[J]. 计算机工程与设计 2013(03)
    • [25].基于词语语义和隐喻逻辑的顾客非结构化需求分析[J]. 中国机械工程 2013(08)
    • [26].世博会旅游形象的结构化与非结构化测量——以重庆市民对世博会感知为例[J]. 安徽农业科学 2009(27)
    • [27].集成非结构化数据[J]. 软件世界 2008(01)
    • [28].基于公共模型技术的非结构化数据模型设计与应用研究[J]. 电子设计工程 2018(05)
    • [29].从容应对金融海量非结构化数据存储[J]. 金融电子化 2018(04)
    • [30].面向大数据的城市轨道交通非结构化数据管理[J]. 城市轨道交通研究 2016(11)

    标签:;  ;  ;  ;  

    海量非结构化数据的组织研究与实现
    下载Doc文档

    猜你喜欢