新闻网页中人物实体关系提取技术研究

新闻网页中人物实体关系提取技术研究

论文摘要

互联网经过多年的快速发展已经积累了海量的信息资源,其中所包含的人物之间的关系是一种有重要价值的信息,它在情报分析、网络舆情监控、社会网络分析等领域有着十分重要的应用。研究者已经意识到这一点,他们纷纷展开相关研究。新闻网页由于其用语规范、报道更新及时、信息可信度高而受到研究者们的青睐。新闻网页已经成为基于互联网的人物实体关系提取研究的主要素材。基于以上认识,本文根据现实需要围绕新闻网页中人物实体关系提取这个主题开展了多项研究,这些研究包括:1、在分析了通用网页采集器的特点和不足的基础上,结合具体应用背景和实际需求,为了准确而高效的下载新闻网页,本文根据新闻网页URL的特点构造了新闻网页URL模式,据此设计并实现了新闻主题网页采集器,很好的完成了网页采集任务。2、仔细分析了目前网页过滤算法效率不高的原因,在总结了新闻网页特点的基础上,针对新闻网页提出了基于文本块字符数统计的过滤算法,通过实验证实了算法的有效性。3、针对支持向量机(SVM)在多类划分上的不足,引入kNN算法来消除拒分向量。由于kNN算法时空开销比较大,当向量数目多的时候其分类性能很差,这将严重影响最终的人物关系提取。所以本文提出了一种kNN的改进算法,极大的提高了它的性能。4、本文在最后设计并实现了一个新闻网页中人物关系提取原型系统。这个系统集主题网页采集、中文分词、词性标注、人物信息提取、关系提取和关系存储于一体,是新闻网页中人物关系提取的整体实现,也是检验本文所研究的方法的最好方式。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.2.1 网页采集器的研究现状
  • 1.2.2 实体关系提取的研究现状
  • 1.3 研究内容和意义
  • 1.4 论文的组织
  • 第二章 网页中人物实体关系提取相关技术概述
  • 2.1 网页解析技术
  • 2.1.1 基于网页模板的网页解析方法
  • 2.1.2 基于网页可视化的网页解析方法
  • 2.1.3 基于网页DOM 树的网页解析
  • 2.2 实体关系提取
  • 2.2.1 实体关系提取概述
  • 2.2.2 实体关系提取的主要技术
  • 2.2.3 实体关系提取面临的主要问题
  • 2.3 本章小结
  • 第三章 基于WEB 的数据采集与人物信息提取
  • 3.1 网页采集器的设计
  • 3.1.1 网页采集器
  • 3.1.2 新闻主题网页采集器
  • 3.2 网页的过滤
  • 3.2.1 新闻网页的特点
  • 3.2.2 基于文本块统计的新闻网页提取算法
  • 3.2.3 基于文本块统计的新闻网页噪声过滤算法验证
  • 3.3 人名及人物属性信息提取
  • 3.3.1 文本中人名识别
  • 3.3.2 文本中人物属性信息的识别与提取
  • 3.4 本章小结
  • 第四章 人物实体关系提取的MSVM-kNN 方法研究
  • 4.1 支持向量机
  • 4.1.1 SVM 实现分类的理论基础
  • 4.1.2 SVM 实现多类划分
  • 4.2 kNN 分类技术研究
  • 4.2.1 kNN 算法
  • 4.2.2 kNN 在处理分类问题时的不足
  • 4.3 MSVM-kNN 算法及其改进
  • 4.3.1 MSVM-kNN 算法
  • 4.3.2 改进的MSVM-kNN
  • 4.4 基于MSVM-kNN 改进算法的人物实体关系抽取实验
  • 4.4.1 语料准备
  • 4.4.2 实验方案设计
  • 4.4.3 实验的结果与分析
  • 4.5 本章小结
  • 第五章 人物实体关系提取系统设计与实现
  • 5.1 人物实体关系提取原型系统框架
  • 5.2 系统功能实现
  • 5.2.1 新闻网页抓取
  • 5.2.2 中文人名识别与人物属性信息提取
  • 5.2.3 人物关系查询功能
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 主要研究成果
  • 6.2 进一步的研究方向
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    • [1].实体关系抽取综述[J]. 计算机工程与应用 2020(12)
    • [2].小规模知识库指导下的细分领域实体关系发现研究[J]. 情报学报 2019(11)
    • [3].基于句法分析的实体关系抽取[J]. 科技风 2018(15)
    • [4].基于依存句法的实体关系抽取[J]. 电子技术与软件工程 2016(24)
    • [5].实体关系抽取研究综述[J]. 信息工程大学学报 2016(05)
    • [6].基于句法语义特征的中文实体关系抽取[J]. 中文信息学报 2014(06)
    • [7].基于句法语义特征的中文实体关系抽取[J]. 北方文学 2016(20)
    • [8].跨语言情境下基于对抗的实体关系抽取模型研究[J]. 图书情报工作 2020(17)
    • [9].基于协陪义动词的中文隐式实体关系抽取[J]. 计算机学报 2019(12)
    • [10].面向食品安全事件新闻文本的实体关系抽取研究[J]. 农业机械学报 2020(07)
    • [11].基于双向门控循环单元和双重注意力的实体关系抽取[J]. 广东石油化工学院学报 2020(03)
    • [12].面向招投标领域的远程监督实体关系抽取研究[J]. 计算机工程与应用 2020(17)
    • [13].深度学习实体关系抽取研究综述[J]. 软件学报 2019(06)
    • [14].弱监督军事实体关系识别[J]. 电子设计工程 2018(01)
    • [15].基于三支决策的两阶段实体关系抽取研究[J]. 计算机工程与应用 2018(09)
    • [16].中文实体关系抽取研究综述[J]. 计算机与现代化 2018(08)
    • [17].基于规则和本体的实体关系抽取系统研究[J]. 情报杂志 2010(S2)
    • [18].基于卷积神经网络的旅游领域实体关系抽取[J]. 青海师范大学学报(自然科学版) 2019(04)
    • [19].面向医学文本的实体关系抽取研究综述[J]. 郑州大学学报(理学版) 2020(04)
    • [20].中文开放式多元实体关系抽取[J]. 计算机科学 2017(S1)
    • [21].基于实体关系的犯罪网络识别机制[J]. 计算机应用研究 2011(03)
    • [22].集成学习算法在实体关系抽取中的应用[J]. 西安建筑科技大学学报(自然科学版) 2011(03)
    • [23].中文实体关系抽取研究[J]. 计算机工程与设计 2009(15)
    • [24].实体关系识别中长距离依赖问题的研究[J]. 小型微型计算机系统 2008(02)
    • [25].基于单实体语言模型的实体关系发现和描述[J]. 信息工程大学学报 2008(03)
    • [26].实体关系抽取的技术方法综述[J]. 现代图书情报技术 2008(08)
    • [27].实体关系抽取方法研究综述[J]. 计算机研究与发展 2020(07)
    • [28].基于依存分析的军事领域英文实体关系抽取研究[J]. 情报工程 2019(01)
    • [29].面向中文开放领域的多元实体关系抽取研究[J]. 智能系统学报 2019(03)
    • [30].面向中文专利的开放式实体关系抽取研究[J]. 计算机工程与应用 2015(01)

    标签:;  ;  ;  ;  ;  ;  

    新闻网页中人物实体关系提取技术研究
    下载Doc文档

    猜你喜欢