基于领域本体的汉语共指消解及相关技术研究

基于领域本体的汉语共指消解及相关技术研究

论文摘要

共指是自然语言篇章和对话中普遍存在的现象。共指使篇章主题更加突出,表述更加连贯与简洁;但它也给自然语言处理带来了不确定性。共指消解是消除这种指代形式带来的不确定性的过程。随着基于篇章真实文本处理需求的大量涌现,共指消解显示出了前所未有的重要性,成为自然语言处理领域的研究热点。本文旨在围绕汉语共指消解及相关命名实体识别任务,考察领域本体对其提供具体支持的方式与作用,并结合机器学习方法进行验证。本文研究侧重于方法论探索与实证分析相结合的路线,提出了一套基于领域本体结合机器学习模型的方法,主要工作如下:1.提出了一种构建领域本体的TPSU方法,该方法将本体构建分成两个阶段,六个处理层次。在具体生成本体过程中,提出了TMR三模型化准则,有效解决了单一树型上下位结构向多元网状关系结构的过渡问题,通过创建实例,丰富和完善了领域本体的知识结构。上述方法与原则具体直观,可以运用于其他同类本体构建,操作性强。2.构建了一个包含12类核心概念、78种属性特征、13种概念、属性关系、4,392条实例的移动电话领域本体MPO。目前尚无此类本体文库。MPO中大多数核心概念可以直接复用,具有推广和实用价值,有效发挥了本体知识可共享的特性。3.将命名实体分成常规实体和领域实体(DNE)两类。在领域命名实体识别(DNER)中,重点考察了领域本体对汉语命名实体识别的支持方式,提出了一种基于领域本体形式化实例获取词性规则模板的方法,结合统计机器学习模型有效实现了领域命名实体的识别,F值达到92.36%。对比实验也表明上述模板能够有效提高识别准确率且性能稳定,在领域实体边界和特殊形式实体识别中作用明显。4.探讨了领域本体对汉语共指消解的作用,提出了一种基于领域本体获取语义类特征的方法,通过特征的自动标注,获取作为候选先行语的名词短语的语义类特征,结合机器学习方法进行领域命名实体基础上的共指消解处理,F值达到86.49%。实验表明领域语义类特征有效提高了共指消解准确性指标,使F值最终提高了7.36%。5.针对目前汉语零形回指研究主要集中在语言学和心理学角度的现状,立足于本文现有成果,提出了一种包含三个具有实际操作性算法的汉语零形共指消解模型。在定义的共指片断内部,通过将零形代词先行语识别出来,填补到缺省位置,完成零形共指消解。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 概述
  • 1.1.1 指代与共指的含义
  • 1.1.2 指代与共指的分类
  • 1.1.3 指代消解与共指消解
  • 1.2 共指消解研究意义
  • 1.3 共指消解研究现状
  • 1.3.1 国内外研究现状
  • 1.3.2 基本研究方法及分析
  • 1.3.3 共指消解技术分析及展望
  • 1.4 本文研究工作
  • 1.4.1 主要研究目标
  • 1.4.2 主要研究成果
  • 1.5 本文组织
  • 2 本体概述
  • 2.1 本体基本问题
  • 2.1.1 本体定义
  • 2.1.2 本体分类
  • 2.1.3 本体基本特征
  • 2.1.4 本体与一般术语的区别
  • 2.2 领域本体定义及构建
  • 2.2.1 描述性定义
  • 2.2.2 形式化定义
  • 2.2.3 构建原则
  • 2.3 本体主要技术方法
  • 2.3.1 本体表示语言
  • 2.3.2 本体构建工具与开发环境
  • 2.4 本体研究意义
  • 2.5 本体研究现状
  • 2.5.1 国内外研究情况
  • 2.5.2 国内外重要的本体系统
  • 2.5.3 基于本体的自然语言处理研究
  • 2.6 本体研究中存在的困难与总体评价
  • 2.6.1 构建本体存在的困难
  • 2.6.2 总体评价
  • 2.7 本章小结
  • 3 移动电话本体MPO(Mobile Phone Ontology)构建
  • 3.1 构建意义
  • 3.2 构建原则
  • 3.3 构建工具的选择
  • 3.3.1 使用开发工具的优点
  • 3.3.2 Protégé简介
  • 3.4 构建方法
  • 3.4.1 常见的本体构建方法
  • 3.4.2 本文采用的方法
  • 3.5 MPO构建步骤与流程
  • 3.5.1 命名问题
  • 3.5.2 分类模型确定
  • 3.5.3 核心概念确定
  • 3.5.4 属性概念确定
  • 3.5.5 特征模型确定
  • 3.5.6 概念关系模型确定
  • 3.5.7 属性分面(facets)确定
  • 3.5.8 实例创建
  • 3.5.9 领域本体表述形式化
  • 3.5.10 生成领域本体分析
  • 3.6 本章小结
  • 4 基于领域本体的汉语命名实体识别
  • 4.1 基本概念
  • 4.2 相关研究
  • 4.3 问题形式化描述
  • 4.4 命名实体识别机器学习算法
  • 4.4.1 条件随机域定义
  • 4.4.2 CRFs的参数估计
  • 4.4.3 CRFs的矩阵描述和计算
  • 4.4.4 模型训练中的动态规划
  • 4.5 汉语命名实体识别研究
  • 4.5.1 命名实体类型
  • 4.5.2 建模粒度选择
  • 4.5.3 标注集确定
  • 4.5.4 语料问题
  • 4.5.5 评测标准
  • 4.6 常规命名实体识别
  • 4.6.1 人名、地名实体识别
  • 4.6.2 组织机构名实体识别
  • 4.6.3 实验
  • 4.7 领域命名实体识别DNER(Domain Named Entity Recognition)
  • 4.7.1 语料处理
  • 4.7.2 特征选择
  • 4.7.3 基于CRFs的DNER
  • 4.7.4 基于领域本体的词性规则模板生成
  • 4.7.5 结合规则模板的DNER处理流程
  • 4.7.6 实验
  • 4.8 本章小结
  • 5 基于领域本体的汉语共指消解
  • 5.1 本章研究的问题域
  • 5.2 共指消解评测算法
  • 5.2.1 MUC评测算法
  • 5.2.2 B-CUBE算法
  • 5.2.3 ACE评测算法
  • 5.2.4 CEAF评测算法
  • 5.2.5 评测算法小结
  • 5.3 汉语共指消解机器学习算法研究
  • 5.3.1 概述
  • 5.3.2 决策树算法
  • 5.4 基于领域本体的共指消解研究
  • 5.4.1 实验语料的标注问题
  • 5.4.2 汉语DNE共指消解流程
  • 5.4.3 名词短语语义类生成
  • 5.4.4 特征向量生成
  • 5.4.5 实验
  • 5.4.6 汉语零型共指问题研究
  • 5.5 本章小结
  • 6 结束语
  • 6.1 全文总结
  • 6.2 下一步工作
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].基于非线性全局上下文的词嵌入[J]. 中国科学:信息科学 2015(12)
    • [2].共指消解研究方法综述[J]. 中文信息学报 2015(01)
    • [3].一种基于谱聚类的共指消解方法[J]. 中文信息学报 2009(03)
    • [4].集成多种背景语义知识的共指消解[J]. 中文信息学报 2009(03)
    • [5].基于汉语框架语义的共指消解研究[J]. 计算机工程 2020(10)
    • [6].基于特征分选策略的中文共指消解方法[J]. 计算机工程 2011(18)
    • [7].面向共指事件识别的同义表述模式抽取研究[J]. 情报学报 2020(03)
    • [8].信息安全领域内实体共指消解技术研究[J]. 通信学报 2020(02)
    • [9].一种基于混合神经网络的命名实体识别与共指消解联合模型[J]. 电子学报 2020(03)
    • [10].多种语义特征在突发事件新闻中的共指消解研究[J]. 中文信息学报 2014(01)
    • [11].基于有监督关联聚类的中文共指消解[J]. 计算机科学 2009(09)
    • [12].篇章中指代消解研究综述[J]. 武汉大学学报(理学版) 2014(01)
    • [13].关联数据冲突消解方法研究[J]. 计算机技术与发展 2018(11)

    标签:;  ;  ;  ;  ;  ;  ;  

    基于领域本体的汉语共指消解及相关技术研究
    下载Doc文档

    猜你喜欢