本体在名实体信息抽取中的应用研究

本体在名实体信息抽取中的应用研究

论文摘要

伴随着Internet的飞速发展,Web上出现了海量的信息资源,如何从这些浩如烟海的信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。本体作为对领域知识的共同理解,能有效地解决现在信息抽取所面对的主要挑战。对于一个领域的特殊应用来说,本体是一个非常有价值的资源,尤其在需要领域知识的情况下。本文首先简述了基于本体的信息抽取技术研究现状,分析了信息抽取系统体系结构,介绍了本体的基本知识,在此基础上,提出了一种基于本体的名实体信息抽取方法。在本方法中,将名实体信息抽取技术和本体结合起来,抽取自由文本、半结构文本中的名实体信息。本文具体的研究内容包括以下三个方面:1.通用本体HowNet与最大熵相结合的名实体信息抽取。在最大熵模型的基础上,利用通用本体HowNet,抽取自由文本中的人名、地名、机构名等名实体信息。本文有两种策略使用HowNet:第一种将HowNet中概念的首义原作为特征加入到最大熵模型,用于提高最大熵模型的泛化性能。第二种利用HowNet提供的概念相似度接口,在不重新训练最大熵模型的情况下,利用概念相似度计算未抽取词语与模型中概念的相似度,以提高抽取效果。2.构建电子产品领域本体。首先介绍了领域本体的基本设计,领域本体有四层,包括有包含关系,概念与实例的关系,属性关系等三种关系。然后收集领域术语,进行文档解析和模式提取,寻找概念间的关系,建立产品树,最后利用最小描述距离算法切分产品树,自动构建领域本体。3.基于领域本体的名实体信息抽取。本文使用了领域本体与改进的正向最大匹配算法,让其能够适应四层的本体库,本文采用的语料是百度知道的网络公共资源,抽取结果与手工抽取的结果对比,取得的实验效果从侧面验证了电子产品领域本体的效果,达到了相应的要求。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及意义
  • 1.2 本体理论
  • 1.2.1 本体定义
  • 1.2.2 本体的构造
  • 1.2.3 领域本体
  • 1.2.4 应用研究现状
  • 1.2.5 基于本体的信息抽取研究分析
  • 1.3 名实体抽取技术
  • 1.3.1 国内外研究现状
  • 1.3.2 中文名实体抽取主要研究方法
  • 1.4 本文的主要研究内容
  • 1.5 本文组织结构
  • 第2章 知网与最大熵结合的名实体抽取方法
  • 2.1 引言
  • 2.2 最大熵模型介绍
  • 2.2.1 最大熵模型简单示例
  • 2.2.2 最大熵模型的框架描述
  • 2.2.3 最大熵模型中的特征
  • 2.3 通用本体知网
  • 2.3.1 知网的结构
  • 2.3.2 知网中的关系
  • 2.4 知网的义原特征在最大熵模型中的应用
  • 2.4.1 特征模板
  • 2.4.2 知网的义原特征与最大熵模型
  • 2.5 知网的概念相似度在最大熵模型中的应用
  • 2.5.1 知网中的概念相似度
  • 2.5.2 最大熵模型与知网概念相似度相结合
  • 2.6 实验结果与分析
  • 2.7 本章小结
  • 第3章 电子产品领域本体的自动构建
  • 3.1 引言
  • 3.2 电子产品领域本体的设计
  • 3.2.1 领域本体的层次关系描述
  • 3.2.2 本体的概念与关系层次图
  • 3.3 产品数据收集
  • 3.3.1 产品数据来源及数据属性
  • 3.3.2 文档解析及模式抽取
  • 3.4 构建领域本体
  • 3.4.1 基于最小描述距离的剪枝模型
  • 3.4.2 构建产品树
  • 3.4.3 基于最小描述距离的产品树切分
  • 3.4.4 自动构建领域本体
  • 3.5 本章小结
  • 第4章 基于领域本体的名实体抽取方法
  • 4.1 引言
  • 4.2 产品名实体抽取任务分析
  • 4.2.1 产品命名实体的界定
  • 4.2.2 产品命名实体识别难点分析
  • 4.3 基于领域本体的名实体抽取
  • 4.3.1 基于领域本体的名实体抽取的目的
  • 4.3.2 基于领域本体的名实体抽取算法
  • 4.3.3 名实体信息抽取系统实现
  • 4.4 实验结果与分析
  • 4.5 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].基于MGS平台的VR-Forces实体信息显示方法[J]. 火力与指挥控制 2015(11)
    • [2].瑞士邮政发行首份定制型日报[J]. 邮政研究 2012(04)
    • [3].基于深度信念网络的地质实体识别方法[J]. 岩石学报 2018(02)
    • [4].基于神经网络的药物实体与关系联合抽取[J]. 计算机研究与发展 2019(07)
    • [5].信息组织工具论[J]. 山东图书馆季刊 2008(04)
    • [6].实体信息集成检索的深网数据源选择[J]. 计算机工程 2016(10)
    • [7].面向搜索引擎的实体推荐综述[J]. 计算机学报 2019(07)
    • [8].新生报到“防”非法校园贷[J]. 生命与灾害 2019(08)
    • [9].大学校园中如何防火灾[J]. 生命与灾害 2019(10)
    • [10].构建真实信任关系下的CA体系[J]. 小型微型计算机系统 2010(02)
    • [11].新闻文档实体重要性排序研究[J]. 图书情报工作 2018(11)
    • [12].基于神经网络的物联网实体信息交互关系识别[J]. 电脑知识与技术 2017(04)
    • [13].基于混合神经网络的实体和事件联合抽取方法[J]. 中文信息学报 2019(08)
    • [14].基于E-TEN模型的三维地籍实体信息组织方法[J]. 测绘与空间地理信息 2016(02)
    • [15].战争的真实面目[J]. 生命与灾害 2019(02)
    • [16].可怕的生物武器[J]. 生命与灾害 2019(04)
    • [17].图书馆实体信息资源组织的两大发展路径[J]. 中国图书馆学报 2009(04)
    • [18].建筑物信息实时云协同调查系统设计与应用[J]. 地理空间信息 2019(12)

    标签:;  ;  ;  

    本体在名实体信息抽取中的应用研究
    下载Doc文档

    猜你喜欢