
论文摘要
语义网因其在数据查询、融合与推理等方面的优势,近年来得到了快速的发展。特别是在Linking Open Data项目的推动下,大量的RDF数据,以数据集的形式被发布出来。它们在带来大量信息的同时,也提出了新的挑战——如何理解与使用这些数量众多、规模较大的RDF数据集。通过一种精简的方式来表达数据集的主要内容,RDF数据集的摘要能帮助人们快速地理解这些RDF数据集。然而当前关于RDF数据集摘要的研究并不多,并且缺乏可用的工具。本文首先讨论了RDF数据集摘要的构建问题的一种转化,然后以之为基础提出了构建RDF数据集摘要的一个方法框架,其特点为综合概念与实例两个层面的重要性来生成摘要,并结合覆盖度来减少信息的冗余。在该方法框架的基础上,本文实现了一个RDF数据集摘要的构建工具——SaIBDS(Schema and Instance Based Dataset Summarization)。相较于传统的摘要工具仅提供固定的摘要结果,SaIBDS提供了多种选择以增强用户在摘要的生成与浏览上的控制能力。SaIBDS根据用户的选择实时地更新摘要结果,使得用户能够从多个角度、可控地去浏览RDF数据集的摘要,进而更好地理解被摘要的RDF数据集。本文设计了两个方面的实验来分别评价摘要的构建方法以及工具对于用户与任务的帮助作用。本文还将SaIBDS与一个相关的RDF数据集的摘要系统对于同一个RDF数据集生成的摘要结果进行了简要的定性比较与分析。实验结果表明,本文提出摘要构建方法能够获得正确反映RDF数据集的主要内容的摘要结果,并且SaIBDS工具具有较好的可用性而且得到了不错的用户评价。
论文目录
摘要Abstract第一章 绪论1.1 语义网简介1.1.1 语义网的发展背景1.1.2 语义网的体系结构1.1.3 语义网中的一些基本概念1.1.4 Linking Open Data项目1.2 摘要的含义与网络中的摘要1.2.1 摘要的含义1.2.2 网络中的摘要1.2.3 RDF数据集摘要的必要性1.2.4 与摘要相近的两个概念1.3 本文的主要研究内容1.4 论文组织结构第二章 预备知识2.1 RDF三元组2.2 随机游走模型的一个通用概率框架2.3 PageRank2.4 HITS第三章 问题陈述3.1 摘要问题的一种转化3.1.1 摘要的两种基本生成方式3.1.2 问题转化3.2 RDF数据集的基本构成单元3.2.1 RDF三元组模式与RDF数据集的模式3.2.2 RDF三元组模式的从属实例与从属实例集合3.2.3 RDF数据集的基本构成单元3.3 RDF数据集摘要构建过程的定义3.4 本章小结第四章 打分与排序4.1 概念重要性的计算4.2 实例重要性的计算4.3 重要性整合与基于覆盖度的重排序4.4 本章小结第五章 摘要工具的系统实现5.1 开发环境与所用工具介绍5.1.1 开发环境5.1.2 Jena(Apache Jena)5.2 SaIBDS系统的结构5.3 预处理5.4 RDF数据集内容的表示5.4.1 数据集模式的生成5.4.2 基本构成单元的生成5.5 摘要生成5.6 摘要呈现5.7 SaIBDS系统的打包与发布5.8 本章小结第六章 实验与评价6.1 引言6.2 基于黄金标准的实验6.2.1 实验数据集6.2.2 实验设计与结果6.2.3 实验结果分析6.3 基于用户反馈的实验6.3.1 实验数据集6.3.2 实验设计6.3.3 实验结果与分析第七章 相关工作7.1 RDF数据集模式的构建或挖掘的相关工作7.2 本体摘要领域中的相关工作7.3 实体摘要领域中的相关工作第八章 总结与未来工作8.1 总结8.2 未来工作致谢参考文献
相关论文文献
标签:数据集摘要论文; 重要性论文; 排序论文;