基于领域本体的汉语共指消解及相关技术研究

论文摘要

共指是自然语言篇章和对话中普遍存在的现象。共指使篇章主题更加突出,表述更加连贯与简洁;但它也给自然语言处理带来了不确定性。共指消解是消除这种指代形式带来的不确定性的过程。随着基于篇章真实文本处理需求的大量涌现,共指消解显示出了前所未有的重要性,成为自然语言处理领域的研究热点。本文旨在围绕汉语共指消解及相关命名实体识别任务,考察领域本体对其提供具体支持的方式与作用,并结合机器学习方法进行验证。本文研究侧重于方法论探索与实证分析相结合的路线,提出了一套基于领域本体结合机器学习模型的方法,主要工作如下:1.提出了一种构建领域本体的TPSU方法,该方法将本体构建分成两个阶段,六个处理层次。在具体生成本体过程中,提出了TMR三模型化准则,有效解决了单一树型上下位结构向多元网状关系结构的过渡问题,通过创建实例,丰富和完善了领域本体的知识结构。上述方法与原则具体直观,可以运用于其他同类本体构建,操作性强。2.构建了一个包含12类核心概念、78种属性特征、13种概念、属性关系、4,392条实例的移动电话领域本体MPO。目前尚无此类本体文库。MPO中大多数核心概念可以直接复用,具有推广和实用价值,有效发挥了本体知识可共享的特性。3.将命名实体分成常规实体和领域实体(DNE)两类。在领域命名实体识别(DNER)中,重点考察了领域本体对汉语命名实体识别的支持方式,提出了一种基于领域本体形式化实例获取词性规则模板的方法,结合统计机器学习模型有效实现了领域命名实体的识别,F值达到92.36%。对比实验也表明上述模板能够有效提高识别准确率且性能稳定,在领域实体边界和特殊形式实体识别中作用明显。4.探讨了领域本体对汉语共指消解的作用,提出了一种基于领域本体获取语义类特征的方法,通过特征的自动标注,获取作为候选先行语的名词短语的语义类特征,结合机器学习方法进行领域命名实体基础上的共指消解处理,F值达到86.49%。实验表明领域语义类特征有效提高了共指消解准确性指标,使F值最终提高了7.36%。5.针对目前汉语零形回指研究主要集中在语言学和心理学角度的现状,立足于本文现有成果,提出了一种包含三个具有实际操作性算法的汉语零形共指消解模型。在定义的共指片断内部,通过将零形代词先行语识别出来,填补到缺省位置,完成零形共指消解。

论文目录

摘要

Abstract

1 绪论

1.1 概述

1.1.1 指代与共指的含义

1.1.2 指代与共指的分类

1.1.3 指代消解与共指消解

1.2 共指消解研究意义

1.3 共指消解研究现状

1.3.1 国内外研究现状

1.3.2 基本研究方法及分析

1.3.3 共指消解技术分析及展望

1.4 本文研究工作

1.4.1 主要研究目标

1.4.2 主要研究成果

1.5 本文组织

2 本体概述

2.1 本体基本问题

2.1.1 本体定义

2.1.2 本体分类

2.1.3 本体基本特征

2.1.4 本体与一般术语的区别

2.2 领域本体定义及构建

2.2.1 描述性定义

2.2.2 形式化定义

2.2.3 构建原则

2.3 本体主要技术方法

2.3.1 本体表示语言

2.3.2 本体构建工具与开发环境

2.4 本体研究意义

2.5 本体研究现状

2.5.1 国内外研究情况

2.5.2 国内外重要的本体系统

2.5.3 基于本体的自然语言处理研究

2.6 本体研究中存在的困难与总体评价

2.6.1 构建本体存在的困难

2.6.2 总体评价

2.7 本章小结

3 移动电话本体MPO（Mobile Phone Ontology）构建

3.1 构建意义

3.2 构建原则

3.3 构建工具的选择

3.3.1 使用开发工具的优点

3.3.2 Protégé简介

3.4 构建方法

3.4.1 常见的本体构建方法

3.4.2 本文采用的方法

3.5 MPO构建步骤与流程

3.5.1 命名问题

3.5.2 分类模型确定

3.5.3 核心概念确定

3.5.4 属性概念确定

3.5.5 特征模型确定

3.5.6 概念关系模型确定

3.5.7 属性分面（facets）确定

3.5.8 实例创建

3.5.9 领域本体表述形式化

3.5.10 生成领域本体分析

3.6 本章小结

4 基于领域本体的汉语命名实体识别

4.1 基本概念

4.2 相关研究

4.3 问题形式化描述

4.4 命名实体识别机器学习算法

4.4.1 条件随机域定义

4.4.2 CRFs的参数估计

4.4.3 CRFs的矩阵描述和计算

4.4.4 模型训练中的动态规划

4.5 汉语命名实体识别研究

4.5.1 命名实体类型

4.5.2 建模粒度选择

4.5.3 标注集确定

4.5.4 语料问题

4.5.5 评测标准

4.6 常规命名实体识别

4.6.1 人名、地名实体识别

4.6.2 组织机构名实体识别

4.6.3 实验

4.7 领域命名实体识别DNER（Domain Named Entity Recognition）

4.7.1 语料处理

4.7.2 特征选择

4.7.3 基于CRFs的DNER

4.7.4 基于领域本体的词性规则模板生成

4.7.5 结合规则模板的DNER处理流程

4.7.6 实验

4.8 本章小结

5 基于领域本体的汉语共指消解

5.1 本章研究的问题域

5.2 共指消解评测算法

5.2.1 MUC评测算法

5.2.2 B-CUBE算法

5.2.3 ACE评测算法

5.2.4 CEAF评测算法

5.2.5 评测算法小结

5.3 汉语共指消解机器学习算法研究

5.3.1 概述

5.3.2 决策树算法

5.4 基于领域本体的共指消解研究

5.4.1 实验语料的标注问题

5.4.2 汉语DNE共指消解流程

5.4.3 名词短语语义类生成

5.4.4 特征向量生成

5.4.5 实验

5.4.6 汉语零型共指问题研究

5.5 本章小结

6 结束语

6.1 全文总结

6.2 下一步工作

致谢

参考文献

附录

基于领域本体的汉语共指消解及相关技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢