个人数据空间管理系统中数据抽取及语义关联构建

个人数据空间管理系统中数据抽取及语义关联构建

论文摘要

近年来,随着用户需求的增加及信息技术的发展,用户面对的数据形式种类繁多,从单纯的文本文件到图片、音频及视频,从无结构数据到半结构化数据、结构化数据,此外,需求的增加也使用户的数据逐渐呈现海量的特性。传统的数据库管理系统不能满足海量、异构数据的管理需求,数据空间作为一种新的数据管理技术应运而生,它不依赖于严格的数据模式,并采用逐步集成的构建方式,能够满足日益复杂的数据管理需求。本文研究数据空间管理系统的信息抽取以及语义关联的创建,主要工作如下:1.在云环境下实现各种异构数据源的信息抽取。本文研究来自本地文件、关系数据库、电子邮件以及浏览器等数据源的相关抽取技术,对抽取获得的数据信息统一采用扩展的iDM模型进行组织,以弱化不同格式的文件在逻辑表示时的差异性。2.系统预定义和用户自定义的语义关联规则的创建。为提高数据空间的查询效率,利用语义关联对查询进行扩展是一种有效策略。本文实现了系统预定义和用户自定义的语义关联,系统除预先设定的语义关联外,允许用户根据需求创建新的语义关联,从而提高了查询结果的有效性。实验结果表明:当数据量满足某个界限值时,云环境下信息抽取的执行效率要远远高于非云环境下的执行效率,并且数据量越大,云环境的高效性体现得越明显;同时,语义关联的创建,很好地改善了数据空间查询的有效性。

论文目录

  • 致谢
  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.2.1 数据空间研究现状
  • 1.2.2 信息抽取研究现状
  • 1.2.3 语义关联研究现状
  • 1.2.4 分布式存储及并行处理研究现状
  • 1.3 本文工作
  • 1.4 论文的组织结构
  • 2 相关技术
  • 2.1 数据空间
  • 2.1.1 数据空间产生的背景
  • 2.1.2 数据空间的特性
  • 2.1.3 数据空间未来的发展
  • 2.2 信息抽取
  • 2.2.1 基本概念
  • 2.2.2 抽取机理分析
  • 2.2.3 信息抽取模型
  • 2.3 语义关联及其构建
  • 2.3.1 关联及其分类
  • 2.3.2 语义关联的形式
  • 2.4 基于Hadoop的云计算平台
  • 2.4.1 Hadoop分布式计算框架
  • 2.4.2 计算平台
  • 3 个人数据空间管理原型系统PersonalSpace
  • 3.1 PersonalSpace系统架构
  • 3.2 系统主要功能
  • 4 信息抽取
  • 4.1 信息资源的种类划分
  • 4.2 抽取算法
  • 4.2.1 本地磁盘数据源的抽取
  • 4.2.2 关系数据库数据源的抽取
  • 4.2.3 电子邮件数据源的抽取
  • 4.2.4 浏览器数据源的抽取
  • 4.3 信息抽取应用的API及包
  • 4.4 信息抽取的实现
  • 4.4.1 环境下信息抽取过程
  • 4.4.2 抽取的实现
  • 5 语义关联的构建及存储
  • 5.1 语义关联的种类
  • 5.2 语义关联的构建
  • 5.2.1 系统预定义语义关联的构建
  • 5.2.2 用户自定义关联的构建
  • 5.3 语义关联存储模型
  • 5.3.1 系统预定义关联的存储
  • 5.3.2 用户自定义关联的存储
  • 5.3.3 语义关联存储模型分析
  • 6 实验测试及分析
  • 6.1 测试环境
  • 6.2 测试目标
  • 6.3 测试实验
  • 6.3.1 实验执行过程
  • 6.3.2 实验结果
  • 6.4 实验结果分析
  • 6.5 基于不同任务粒度的实验结果及分析
  • 7 总结与展望
  • 参考文献
  • 作者简介
  • 学位论文数据集
  • 相关论文文献

    标签:;  ;  ;  ;  

    个人数据空间管理系统中数据抽取及语义关联构建
    下载Doc文档

    猜你喜欢