Web环境下基于语义模式匹配的实体关系提取方法的研究

Web环境下基于语义模式匹配的实体关系提取方法的研究

论文摘要

随着互联网的迅猛发展,Web信息资源已成为全球最大的知识库,为了应对信息爆炸带来的挑战,合理而高效地利用Web信息资源,迅速找到有价值的信息,研究者们提出了Web信息抽取(Web Information Exrtaction)的概念。Web信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。Web信息抽取有三个基本任务,命名实体识别、实体关系抽取和事件发现。实体关系抽取不仅是信息抽取的一项重要任务,也是事件发现和多种应用系统的基础,具有重要意义。模式匹配作为Web信息提取的主要方法之一,近年来备受研究者关注。本文分析了现有的实体关系抽取技术并进行了总结。在此基础上提出了一种基于语义模式匹配的实体关系抽取模型(SPMREM)。该方法采用机器学习思想,可以将一个包含有限数目个已确知关系的实体元组的集合作为训练集,从Web页面中提取蕴含命名实体的关系模式,再由此关系模式从特定领域的Web页面中提取实体关系。SPMREM首先采用面向Web页面的关系模式提取方法。通过分析自然语言语句的语义结构,提出一种合理的字符串匹配方法;结合改进的单词语义相似度计算技术,提出一种字符串语义相似度计算方法,可以准确高效的计算字符串之间的语义相关性。并通过基于相似密度的聚类方法,对关系模式进行聚类,提取关系模式集。其次提出一种基于模式匹配的Web页面的实体提取方法,包括基于关系模式匹配的目标实体定位噪音过滤,有效地对Web页面中描述的实体关系进行提取。经过实验验证,本文提出的模式匹配方法能够真正有效地从训练集中抽象出实体关系模式,进而在Web页面中通过模式匹配方法提取出未知的实体关系,并且在准确率和召回率方面都要优于现有方法,使得Web页面中信息得到充分利用,具有很高的应用价值,可以广泛的应用到Web信息集成中。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 课题背景
  • 1.2 国内外研究现状
  • 1.3 本文研究的内容
  • 1.4 本文研究思路及组织结构
  • 第2章 相关概念与技术
  • 2.1 Web相关技术
  • 2.2 搜索引擎
  • 2.3 Wordnet
  • 2.4 本章小结
  • 第3章 基于语义模式匹配的关系提取模型(SPMREM)概述
  • 3.1 SPMREM的提出
  • 3.2 SPMREM体系结构
  • 3.3 SPMREM的工作流程
  • 3.4 本章小结
  • 第4章 基于字符串语义相似度的关系模式提取
  • 4.1 单词语义相似度计算
  • 4.2 字符串匹配方法选择
  • 4.3 字符串语义相似度
  • 4.4 关系模式生成
  • 4.5 本章小结
  • 第5章 基于关系模式匹配的实体关系提取
  • 5.1 基于关系模式匹配的目标实体定位
  • 5.2 噪音过滤
  • 5.2.1 TF-IDF
  • 5.2.2 噪音过滤
  • 5.2.3 提取记录置信度计算
  • 5.3 本章小结
  • 第6章 实验与分析
  • 6.1 实验设置
  • 6.1.1 实验环境设置
  • 6.1.2 实验数据设置
  • 6.2 实验结果及分析
  • 6.2.1 语义相似度计算实验
  • 6.2.2 关系模式聚类实验
  • 6.2.3 实体关系提取实验
  • 6.3 本章小结
  • 第7章 结论
  • 7.1 本文的主要贡献与结论
  • 7.2 进一步的工作
  • 参考文献
  • 致谢
  • 攻硕期间参加的项目及发表的论文
  • 相关论文文献

    • [1].实体关系抽取综述[J]. 计算机工程与应用 2020(12)
    • [2].小规模知识库指导下的细分领域实体关系发现研究[J]. 情报学报 2019(11)
    • [3].基于句法分析的实体关系抽取[J]. 科技风 2018(15)
    • [4].基于依存句法的实体关系抽取[J]. 电子技术与软件工程 2016(24)
    • [5].实体关系抽取研究综述[J]. 信息工程大学学报 2016(05)
    • [6].基于句法语义特征的中文实体关系抽取[J]. 中文信息学报 2014(06)
    • [7].基于句法语义特征的中文实体关系抽取[J]. 北方文学 2016(20)
    • [8].基于协陪义动词的中文隐式实体关系抽取[J]. 计算机学报 2019(12)
    • [9].面向食品安全事件新闻文本的实体关系抽取研究[J]. 农业机械学报 2020(07)
    • [10].基于双向门控循环单元和双重注意力的实体关系抽取[J]. 广东石油化工学院学报 2020(03)
    • [11].面向招投标领域的远程监督实体关系抽取研究[J]. 计算机工程与应用 2020(17)
    • [12].深度学习实体关系抽取研究综述[J]. 软件学报 2019(06)
    • [13].弱监督军事实体关系识别[J]. 电子设计工程 2018(01)
    • [14].基于三支决策的两阶段实体关系抽取研究[J]. 计算机工程与应用 2018(09)
    • [15].中文实体关系抽取研究综述[J]. 计算机与现代化 2018(08)
    • [16].基于规则和本体的实体关系抽取系统研究[J]. 情报杂志 2010(S2)
    • [17].基于卷积神经网络的旅游领域实体关系抽取[J]. 青海师范大学学报(自然科学版) 2019(04)
    • [18].面向医学文本的实体关系抽取研究综述[J]. 郑州大学学报(理学版) 2020(04)
    • [19].中文开放式多元实体关系抽取[J]. 计算机科学 2017(S1)
    • [20].基于实体关系的犯罪网络识别机制[J]. 计算机应用研究 2011(03)
    • [21].集成学习算法在实体关系抽取中的应用[J]. 西安建筑科技大学学报(自然科学版) 2011(03)
    • [22].中文实体关系抽取研究[J]. 计算机工程与设计 2009(15)
    • [23].实体关系识别中长距离依赖问题的研究[J]. 小型微型计算机系统 2008(02)
    • [24].基于单实体语言模型的实体关系发现和描述[J]. 信息工程大学学报 2008(03)
    • [25].实体关系抽取的技术方法综述[J]. 现代图书情报技术 2008(08)
    • [26].实体关系抽取方法研究综述[J]. 计算机研究与发展 2020(07)
    • [27].基于依存分析的军事领域英文实体关系抽取研究[J]. 情报工程 2019(01)
    • [28].面向中文开放领域的多元实体关系抽取研究[J]. 智能系统学报 2019(03)
    • [29].面向中文专利的开放式实体关系抽取研究[J]. 计算机工程与应用 2015(01)
    • [30].无指导的中文开放式实体关系抽取[J]. 计算机研究与发展 2015(05)

    标签:;  ;  ;  

    Web环境下基于语义模式匹配的实体关系提取方法的研究
    下载Doc文档

    猜你喜欢