基于维基百科的知识抽取和重用

基于维基百科的知识抽取和重用

论文摘要

随着互联网2.0的兴起,利用集体智慧的协作式编辑系统被广泛地用于知识管理中。维基系统就是这样一个例子,其中维基百科就是流行的一种维基系统。维基百科是目前最大的免费在线百科全书,它是由广大的志愿者来共同编辑的。维基百科具备以下作为一个潜在的语义数据源的特征:广泛的知识覆盖面、明确定义的结构化信息和随着世界知识变迁而变迁动态更新的特点。语义维基是对维基的一种扩展,利用语义万维网的技术对维基元素增加显示的语义。然而,尽管这种自由的、协作式的编辑方式促成了维基百科的成功,但是这同时也带来了一些问题。尤其地,它会导致大量的标注缺失和噪音标注的问题,这会影响到文章的内容质量和妨碍术语的收敛。当前,低质量的标注不得不由一小批专家去修改,这也成为了一种效率的瓶颈。同时,这些专家也是做了大部分编辑工作的最活跃的贡献者,对他们而言,这无非是一个巨大的负担。语义维基百科也面临同样的问题:缺少标注的语义和语义标注者。特别地,对一个普通用户来说,要编辑一个高质量的维基百科文章,必须处理好当前编辑的文章与系统现有的文档集的关系。这就要求用户对系统文档集以及其包含的知识有一定的了解,在编辑语义维基时还要理解其潜在的语义技术。他们要面临以下一些问题:1)什么时候有必要提供一个超链接指向一个被引用的实体?如何正确定位到它?2)可以用哪些类别标签来恰当地标识这篇文章?3)可以用什么信息盒模板来描述文章主题对象的属性?4)在编辑语义维基百科的时候,实体之间是否有潜在的语义关系?如果存在,则应该用什么谓词来标注关系的类型?在本课题中,我们试图通过知识抽取与知识重用来帮助用户回答以上这些问题。知识抽取是知识重用的前提和依据,而知识重用是知识抽取的目的。我们受到协同过滤的思想的启发:根据相似用户的评价行为来产生对当前用户的推荐。类似地,我们通过标注推荐的方式来实现知识重用。为了达到这个目的,我们首先要从当前维基百科中的标注的数据集中抽取有用的知识作为我们作推荐的依据或背景知识,这些知识是结构化或半结构化的实体语义特征,包括:实体的术语词典、实体的类型、实体之间的关系特征等。我们还将提出一个统一的标注推荐算法框架来重用所抽取的知识,并将这个知识重用方案应用到当前的维基百科的编辑中去。我们将展示原形系统EachWiki,它对维基百科提供了以下的推荐服务:链接推荐、类别推荐、信息盒推荐、以及关系推荐,通过这种方式,使得用户在编辑维基百科时可以充分利用集体的智慧。这些推荐服务不但可以便利用户编辑高质量的维基百科知识,还可以帮助构筑语义维基百科。最后,通过对各个推荐服务的实验评估充分证明了我们方法的有效性、高效性和实用性。

论文目录

  • 摘要
  • ABSTRACT
  • 1 引言
  • 1.1 研究背景
  • 1.2 维基百科的基本元素
  • 1.3 问题的提出
  • 2 相关研究工作
  • 2.1 维基百科与信息抽取
  • 2.1.1 从维基百科纯文本中抽取关系
  • 2.1.2 从维基百科结构化的部分中抽取关系
  • 2.1.3 识别维基百科命名实体的类型
  • 2.2 维基百科与自然语言处理
  • 2.2.1 语义相关度
  • 2.2.2 词义消歧
  • 2.2.3 指代消除
  • 2.3 维基百科与信息检索
  • 2.3.1 搜索
  • 2.3.2 浏览
  • 2.4 本体构建和语义万维网
  • 2.5 本章小结
  • 3 问题描述
  • 3.1 链接推荐问题
  • 3.2 类别推荐推荐问题
  • 3.3 信息盒推荐推荐问题
  • 3.4 语义关系推荐推荐问题
  • 4 维基百科的知识抽取
  • 4.1 维基实体的语义特征模型
  • 4.2 同义词特征及其抽取
  • 4.3 类型特征及其抽取
  • 4.3.1 类别特征的抽取
  • 4.3.2 定义特征的抽取
  • 4.4 关系特征及其抽取
  • 4.4.1 关系特征的定义和表示
  • 4.4.2 关系特征的抽取
  • 4.5 本章小结
  • 5 维基百科的知识重用
  • 5.1 统一的推荐算法
  • 5.2 链接推荐
  • 5.2.1 相关资源匹配
  • 5.2.2 排序
  • 5.3 类别推荐
  • 5.3.1 相关资源匹配
  • 5.3.2 排序
  • 5.4 信息盒的推荐
  • 5.5 语义关系的推荐
  • 5.5.1 相关资源匹配
  • 5.5.2 排序
  • 5.6 本章小结
  • 6 原型系统EachWiki
  • 6.1 系统实现
  • 6.2 用户接口
  • 6.2.1 链接推荐
  • 6.2.2 类别推荐和信息盒推荐
  • 6.2.3 关系推荐
  • 6.3 本章小结
  • 7 实验评估
  • 7.1 链接推荐
  • 7.1.1 下线评估
  • 7.1.2 在线评估
  • 7.2 类别推荐
  • 7.3 信息盒推荐
  • 7.4 关系推荐
  • 7.5 本章小结
  • 8 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文
  • 攻读学位期间参加的项目
  • 上海交通大学学位论文答辩决议书
  • 相关论文文献

    • [1].维基百科过时了吗?[J]. 求知导刊 2013(03)
    • [2].个性化虚拟语料库及其应用——以维基百科英文语料库为例[J]. 中国信息技术教育 2017(09)
    • [3].维基百科:人人都能编写的百科全书[J]. 百科知识 2017(10)
    • [4].使用维基百科搜索大学论文资料的利与弊[J]. 英语沙龙(实战版) 2010(11)
    • [5].维基百科10年,合作的典范[J]. 英语文摘 2011(03)
    • [6].《危机中的维基百科》(2013年第47期)[J]. 新民周刊 2013(48)
    • [7].维基百科的衰落[J]. 科技创业 2013(12)
    • [8].维基百科生日快乐[J]. 互联网天地 2009(05)
    • [9].维基百科创始人众筹建立新网站:为了打击虚假新闻[J]. 公关世界 2017(09)
    • [10].维基百科与美国学生期末作业[J]. 教育 2014(20)
    • [11].医学专家帮助维基百科提高精确性[J]. 中国信息界(e医疗) 2014(09)
    • [12].《维基百科》的特性及影响[J]. 辞书研究 2009(02)
    • [13].美国:计划2020年将维基百科档案发往月球[J]. 陕西档案 2018(04)
    • [14].百年前,有人用纸建起“维基百科”[J]. 东西南北 2019(08)
    • [15].维基百科的制胜之道[J]. 大科技(百科新说) 2015(06)
    • [16].维基百科之父:我把宝押在大众身上[J]. 中国企业家 2010(02)
    • [17].维基百科的分布式知识评价基础[J]. 晋阳学刊 2018(04)
    • [18].创建维基百科的人[J]. 现代班组 2014(08)
    • [19].维基百科、手机上网与全民记者[J]. 新闻实践 2010(08)
    • [20].谁在撼动维基百科[J]. 互联网周刊 2008(01)
    • [21].维基百科与法律教育的未来[J]. 中国法学教育研究 2015(01)
    • [22].IBM的监视[J]. 意林 2014(02)
    • [23].维基百科信息生产机制管窥[J]. 新闻窗 2010(01)
    • [24].百科全书随身带[J]. 电脑爱好者 2012(17)
    • [25].维基百科和它的创始人,你绝对不知道的纠结故事[J]. 求知导刊 2013(01)
    • [26].电影专业维基百科的设计与实现[J]. 图书情报工作网刊 2012(06)
    • [27].维基百科回归传统模式[J]. 金融博览 2011(01)
    • [28].利用“维基百科”进行学术出版之优势和挑战[J]. 现代情报 2013(09)
    • [29].从维基百科看工具书的变迁与发展[J]. 内蒙古科技与经济 2009(10)
    • [30].基于维基百科的短文本相关度计算[J]. 计算机工程 2018(02)

    标签:;  ;  ;  ;  ;  

    基于维基百科的知识抽取和重用
    下载Doc文档

    猜你喜欢