一种RDF数据集的摘要工具的设计与实现

论文摘要

语义网因其在数据查询、融合与推理等方面的优势,近年来得到了快速的发展。特别是在Linking Open Data项目的推动下,大量的RDF数据,以数据集的形式被发布出来。它们在带来大量信息的同时,也提出了新的挑战——如何理解与使用这些数量众多、规模较大的RDF数据集。通过一种精简的方式来表达数据集的主要内容,RDF数据集的摘要能帮助人们快速地理解这些RDF数据集。然而当前关于RDF数据集摘要的研究并不多,并且缺乏可用的工具。本文首先讨论了RDF数据集摘要的构建问题的一种转化,然后以之为基础提出了构建RDF数据集摘要的一个方法框架,其特点为综合概念与实例两个层面的重要性来生成摘要,并结合覆盖度来减少信息的冗余。在该方法框架的基础上,本文实现了一个RDF数据集摘要的构建工具——SaIBDS(Schema and Instance Based Dataset Summarization)。相较于传统的摘要工具仅提供固定的摘要结果,SaIBDS提供了多种选择以增强用户在摘要的生成与浏览上的控制能力。SaIBDS根据用户的选择实时地更新摘要结果,使得用户能够从多个角度、可控地去浏览RDF数据集的摘要,进而更好地理解被摘要的RDF数据集。本文设计了两个方面的实验来分别评价摘要的构建方法以及工具对于用户与任务的帮助作用。本文还将SaIBDS与一个相关的RDF数据集的摘要系统对于同一个RDF数据集生成的摘要结果进行了简要的定性比较与分析。实验结果表明,本文提出摘要构建方法能够获得正确反映RDF数据集的主要内容的摘要结果,并且SaIBDS工具具有较好的可用性而且得到了不错的用户评价。

论文目录

摘要

Abstract

第一章绪论

1.1 语义网简介

1.1.1 语义网的发展背景

1.1.2 语义网的体系结构

1.1.3 语义网中的一些基本概念

1.1.4 Linking Open Data项目

1.2 摘要的含义与网络中的摘要

1.2.1 摘要的含义

1.2.2 网络中的摘要

1.2.3 RDF数据集摘要的必要性

1.2.4 与摘要相近的两个概念

1.3 本文的主要研究内容

1.4 论文组织结构

第二章预备知识

2.1 RDF三元组

2.2 随机游走模型的一个通用概率框架

2.3 PageRank

2.4 HITS

第三章问题陈述

3.1 摘要问题的一种转化

3.1.1 摘要的两种基本生成方式

3.1.2 问题转化

3.2 RDF数据集的基本构成单元

3.2.1 RDF三元组模式与RDF数据集的模式

3.2.2 RDF三元组模式的从属实例与从属实例集合

3.2.3 RDF数据集的基本构成单元

3.3 RDF数据集摘要构建过程的定义

3.4 本章小结

第四章打分与排序

4.1 概念重要性的计算

4.2 实例重要性的计算

4.3 重要性整合与基于覆盖度的重排序

4.4 本章小结

第五章摘要工具的系统实现

5.1 开发环境与所用工具介绍

5.1.1 开发环境

5.1.2 Jena（Apache Jena）

5.2 SaIBDS系统的结构

5.3 预处理

5.4 RDF数据集内容的表示

5.4.1 数据集模式的生成

5.4.2 基本构成单元的生成

5.5 摘要生成

5.6 摘要呈现

5.7 SaIBDS系统的打包与发布

5.8 本章小结

第六章实验与评价

6.1 引言

6.2 基于黄金标准的实验

6.2.1 实验数据集

6.2.2 实验设计与结果

6.2.3 实验结果分析

6.3 基于用户反馈的实验

6.3.1 实验数据集

6.3.2 实验设计

6.3.3 实验结果与分析

第七章相关工作

7.1 RDF数据集模式的构建或挖掘的相关工作

7.2 本体摘要领域中的相关工作

7.3 实体摘要领域中的相关工作

第八章总结与未来工作

8.1 总结

8.2 未来工作

致谢

参考文献

一种RDF数据集的摘要工具的设计与实现

论文摘要

论文目录

相关论文文献

猜你喜欢