维基百科人物属性自动获取及社会网络构建方法研究

维基百科人物属性自动获取及社会网络构建方法研究

论文摘要

人物检索是互联网用户最重要的活动之一。人物搜索引擎、社会网络构建等与人物相关的网络应用成为研究的热点。人物属性抽取是这些研究的一个重要基础。本文基于维基百科的人物文本进行了人物属性的抽取研究,并在人物属性抽取的基础上,结合人物维基文本中的其他信息,构建了一个社会网络。维基百科人物文本中的信息盒以表格的形式对人物的重要属性进行了描述,这为抽取人物属性提供了很好的数据源。但是只有不到40%的维基文本包含信息盒,并且还有部分信息盒中的属性信息缺失。因此,如何自动生成信息盒及填充信息盒中缺失的属性信息成为本文的研究内容之一。信息盒模板有不同的类型,不同的信息盒模板包含的属性类型不同。在利用信息盒模板抽取属性之前,必须先确定维基文本使用的信息盒模板类型。本文把该问题当作一个文本分类任务处理。在特征选择方面,提出了基于超链接词、文本类别和实词的特征选择方法,并且与所有词作为特征的方法进行了对比,在不同的分类器上进行了实验。结果表明,本文提出的方法在分类性能上具有一定的优越性。在属性抽取任务中,本文提出了一种全自动的抽取方法。该方法利用部分已有信息盒中的“人物姓名-属性-属性值”三元组标记维基文本句子,自动生成带标注的数据集,通过机器学习生成描述人物属性的模板,从而通过模板匹配获取更多人物的属性信息,达到生成或完善信息盒的目的。本文在五个常用属性上进行了实验,实验表明,该方法可以有效的抽取出人物的属性。最后,基于抽取出的人物属性以及维基文本中的其他信息挖掘出一个相似性社会网络。本文将人物的不同信息进行了分类,提出“人物模型”的表示方法。对于人物模型中的不同维度,给出了不同的相似度计算方法。对于人物模型总的相似度的计算,本文把人物实体看作一个系统,采用了系统相似性度量的方法。此外,本文还定义了四种关系,对给定的两个人物,在输出相似度的同时,进一步给出了两个人物之间的关系。最后,在维基百科真实人物的数据集上进行了实验,分析了网络的分布特征,证明了该方法的可行性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.2 研究现状
  • 1.3 本文工作
  • 1.4 论文组织
  • 第2章 维基百科
  • 2.1 维基百科简介
  • 2.2 维基百科的内容结构
  • 2.2.1 主条目页面
  • 2.2.2 重定向页面
  • 2.2.3 消歧义页面
  • 2.2.5 分类图和文档图
  • 2.2.6 模板和信息盒
  • 2.2.7 列表
  • 2.2.8 其他
  • 2.3 维基百科的语法
  • 2.4 维基百科在自然语言处理领域的应用
  • 2.4.1 文本分类
  • 2.4.2 关系抽取
  • 2.4.3 本体构建
  • 2.4.4 网络构建
  • 2.5 本章小结
  • 第3章 基于维基百科信息盒的人物属性抽取
  • 3.1 任务定义
  • 3.2 维基百科语料的获取
  • 3.3 维基百科语料的预处理
  • 3.3.1 人物条目的提取
  • 3.3.2 抽取人物条目文本和信息盒
  • 3.3.3 抽取人物维基文本中的超链接和类别信息
  • 3.3.4 从信息盒中抽取三元组
  • 3.3.5 格式清理及转化
  • 3.3.6 繁简转换
  • 3.3.7 分句及分词
  • 3.4 基于信息盒模板类别的文档分类
  • 3.4.1 文本表示
  • 3.4.2 特征权重计算方法
  • 3.4.3 特征选择方法
  • 3.4.4 相似度计算方法
  • 3.4.5 分类器
  • 3.4.6 评价方法
  • 3.4.7 实验
  • 3.5 基于模板的人物属性自动获取
  • 3.5.1 数据集自动标注
  • 3.5.2 模板自动获取
  • 3.5.3 人物属性获取
  • 3.5.5 实验
  • 3.6 本章小结
  • 第4章 基于维基百科人物的社会网络构建
  • 4.1 人物模型构建
  • 4.2 人物模型的特征表示
  • 4.3 人物模型的相似度计算
  • 4.3.1 人物基本属性的相似度计算方法
  • 4.3.2 人物相关信息的相似度计算方法
  • 4.3.3 人物类别信息的相似度计算方法
  • 4.3.4 人物模型总的相似度计算方法
  • 4.4 关系类型定义及抽取规则
  • 4.5 实验
  • 4.5.1 实验数据
  • 4.5.2 实验结果及分析
  • 4.6 本章小结
  • 第5章 总结及工作展望
  • 5.1 总结
  • 5.2 工作展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的论文及参加的项目
  • 相关论文文献

    • [1].简论音乐的属性[J]. 北方音乐 2018(24)
    • [2].新时代中国特色社会主义文艺的本质属性[J]. 中国文学批评 2018(01)
    • [3].基于形式背景的属性约简关系[J]. 西华大学学报(自然科学版) 2017(05)
    • [4].详解成吉思汗OnLine成就属性及获得方式[J]. 电脑迷 2009(21)
    • [5].自带风雪属性的人(组诗)[J]. 诗林 2018(03)
    • [6].恋爱的季节优势[J]. 北方人(悦读) 2009(09)
    • [7].指责的属性[J]. 党政论坛(干部文摘) 2010(08)
    • [8].恋爱的季节优势[J]. 女性天地 2010(06)
    • [9].论大学的本质属性——一个永恒不变的属性体系[J]. 教育探索 2018(03)
    • [10].莫要空谈社会责任[J]. 当代经理人 2010(06)
    • [11].开发离散选择实验属性和水平的研究进展[J]. 现代预防医学 2020(12)
    • [12].对未来人类社会发展的价值理性探析——基于人的自然属性和社会属性的辩证分析[J]. 云南社会主义学院学报 2017(03)
    • [13].论词汇社会属性和文化属性的差异[J]. 江西师范大学学报(哲学社会科学版) 2013(06)
    • [14].色彩的属性含义依形态决定的探析[J]. 美术大观 2009(07)
    • [15].粗糙集在多属性评价中的应用:理论分析与文献述评[J]. 湖南工业职业技术学院学报 2020(01)
    • [16].基于属性拓扑的人脑遗忘特性分析[J]. 数码设计 2017(02)
    • [17].属性激活的认知原理分析[J]. 小型微型计算机系统 2017(08)
    • [18].对市场营销中产品利益属性的认识及其思考[J]. 考试周刊 2011(40)
    • [19].论微博对协商民主的促进功能——基于MOA混合属性理论的分析[J]. 当代传播 2013(04)
    • [20].国内外属性抽取研究综述[J]. 情报科学 2011(05)
    • [21].约简加速求解的属性簇方法[J]. 南京理工大学学报 2020(02)
    • [22].检委会司法属性内涵与强化建议[J]. 人民检察 2016(05)
    • [23].“潜规则”乃是“钱规则”[J]. 中国监察 2012(24)
    • [24].论中国特色社会主义本质属性的基本特征[J]. 东北师大学报(哲学社会科学版) 2009(02)
    • [25].解析日本校园欺凌中的集团属性——以秋本明网述事件为例[J]. 牡丹江大学学报 2017(01)
    • [26].多维感悟“本质属性” 有效构建“几何概念”[J]. 吉林教育 2016(21)
    • [27].属性组序下基于代价敏感的约简方法[J]. 南京大学学报(自然科学) 2020(04)
    • [28].一种基于可信度分析的Web页面新属性发现方法[J]. 计算机技术与发展 2009(01)
    • [29].新闻获得性属性根源分析[J]. 湖南大众传媒职业技术学院学报 2008(05)
    • [30].会计属性辨析[J]. 黑龙江对外经贸 2008(10)

    标签:;  ;  ;  ;  ;  

    维基百科人物属性自动获取及社会网络构建方法研究
    下载Doc文档

    猜你喜欢