论文摘要
近年来,随着用户需求的增加及信息技术的发展,用户面对的数据形式种类繁多,从单纯的文本文件到图片、音频及视频,从无结构数据到半结构化数据、结构化数据,此外,需求的增加也使用户的数据逐渐呈现海量的特性。传统的数据库管理系统不能满足海量、异构数据的管理需求,数据空间作为一种新的数据管理技术应运而生,它不依赖于严格的数据模式,并采用逐步集成的构建方式,能够满足日益复杂的数据管理需求。本文研究数据空间管理系统的信息抽取以及语义关联的创建,主要工作如下:1.在云环境下实现各种异构数据源的信息抽取。本文研究来自本地文件、关系数据库、电子邮件以及浏览器等数据源的相关抽取技术,对抽取获得的数据信息统一采用扩展的iDM模型进行组织,以弱化不同格式的文件在逻辑表示时的差异性。2.系统预定义和用户自定义的语义关联规则的创建。为提高数据空间的查询效率,利用语义关联对查询进行扩展是一种有效策略。本文实现了系统预定义和用户自定义的语义关联,系统除预先设定的语义关联外,允许用户根据需求创建新的语义关联,从而提高了查询结果的有效性。实验结果表明:当数据量满足某个界限值时,云环境下信息抽取的执行效率要远远高于非云环境下的执行效率,并且数据量越大,云环境的高效性体现得越明显;同时,语义关联的创建,很好地改善了数据空间查询的有效性。
论文目录
致谢摘要ABSTRACT1 绪论1.1 研究背景1.2 研究现状1.2.1 数据空间研究现状1.2.2 信息抽取研究现状1.2.3 语义关联研究现状1.2.4 分布式存储及并行处理研究现状1.3 本文工作1.4 论文的组织结构2 相关技术2.1 数据空间2.1.1 数据空间产生的背景2.1.2 数据空间的特性2.1.3 数据空间未来的发展2.2 信息抽取2.2.1 基本概念2.2.2 抽取机理分析2.2.3 信息抽取模型2.3 语义关联及其构建2.3.1 关联及其分类2.3.2 语义关联的形式2.4 基于Hadoop的云计算平台2.4.1 Hadoop分布式计算框架2.4.2 计算平台3 个人数据空间管理原型系统PersonalSpace3.1 PersonalSpace系统架构3.2 系统主要功能4 信息抽取4.1 信息资源的种类划分4.2 抽取算法4.2.1 本地磁盘数据源的抽取4.2.2 关系数据库数据源的抽取4.2.3 电子邮件数据源的抽取4.2.4 浏览器数据源的抽取4.3 信息抽取应用的API及包4.4 信息抽取的实现4.4.1 环境下信息抽取过程4.4.2 抽取的实现5 语义关联的构建及存储5.1 语义关联的种类5.2 语义关联的构建5.2.1 系统预定义语义关联的构建5.2.2 用户自定义关联的构建5.3 语义关联存储模型5.3.1 系统预定义关联的存储5.3.2 用户自定义关联的存储5.3.3 语义关联存储模型分析6 实验测试及分析6.1 测试环境6.2 测试目标6.3 测试实验6.3.1 实验执行过程6.3.2 实验结果6.4 实验结果分析6.5 基于不同任务粒度的实验结果及分析7 总结与展望参考文献作者简介学位论文数据集
相关论文文献
标签:数据空间论文; 云计算论文; 语义关联论文; 信息抽取论文;