汉语指代消解及相关技术研究

汉语指代消解及相关技术研究

论文摘要

大量出现在篇章或者对话中的指代,是自然语言中常见的语言现象,它使得句子更加简明,主题更加鲜明突出,但这也给计算机理解自然语言增加了难度。指代消解就是为解决这一问题而形成的文本信息处理中的一个重要任务分支。随着篇章处理的相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理领域的研究热点。它在信息抽取、机器翻译、自动文摘、问答系统等许多自然语言处理应用领域中发挥着重要作用。 本文针对汉语指代消解及相关技术,包括汉语基本名词短语识别、机器学习等进行了深入系统的分析和研究,主要取得的成果如下: 1、提出了一种基于规则的汉语基本名词短语识别算法——基于扩展词性模板算法。该方法通过对基本名词短语上下文环境中词汇的统计和分析,将词性模板和上下文环境信息构成扩展词性模板,用扩展词性模板对标注结果进行修正。由于采用的扩展模板较为合理和准确,使得识别的正确率达到94.48%。 2、提出了一种基于规则和统计相结合的汉语基本名词短语识别算法。规则方法和统计方法存在一定的互补性。本文将两种方法进行融合,先利用统计方法标注,再利用扩展词性模板纠正。实验结果表明,该方法在一定程度上弥补了规则方法和统计方法的不足,识别的F指数达到89.51%,均高于单纯一种方法得到的结果。 3、在借鉴英语指代消解算法的基础上,结合汉语自身特点,提出了基于机器学习算法的汉语人称代词指代消解方法。现今指代消解技术正在由单一的基于规则的技术向采用机器学习方向发展。基于机器学习方法将指代消解问题转化为分类问题,通过分类器判断照应语与每个候选项之间是否存在指代关系,实现指代消解。该方法具有实现简单、扩展性好、抗噪声能力强的特点。本文分别将决策树、最大熵、条件随机场三种机器学习模型应用于该方法,均收到了良好的效果,通过对结果的分析比较,条件随机场模型在性能上优于其它两种模型。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 自然语言处理
  • 1.2 指代消解的定义
  • 1.3 指代消解的研究意义
  • 1.4 指代消解研究现状
  • 1.4.1 早期的指代消解算法
  • 1.4.2 基于学习的方法
  • 1.4.3 汉语指代消解方法
  • 1.4.4 指代消解技术的分析及发展趋势
  • 1.5 本文研究工作
  • 1.6 论文组织
  • 第二章 机器学习方法
  • 2.1 机器学习的本质
  • 2.2 决策树算法
  • 2.2.1 基本概念
  • 2.2.2 决策树的生成
  • 2.2.3 属性选择标准
  • 2.2.4 决策树的修剪
  • 2.2.5 决策树产生决策规则
  • 2.2.6 C4.5决策树算法
  • 2.3 最大熵算法
  • 2.3.1 最大熵方法概述
  • 2.3.2 最大熵模型
  • 2.3.3 最大熵原理的数学表示
  • 2.3.4 参数形式
  • 2.3.5 极大似然估计
  • 2.4 条件随机场
  • 2.4.1 无向图模型
  • 2.4.2 条件随机场的图结构
  • 2.4.3 式函数
  • 2.4.4 条件随机场(CRFs)
  • 2.4.5 极大似然参数估计
  • 2.4.6 CRFs概率计算
  • 2.4.7 动态规划
  • 2.5 机器学习在科学中的前景
  • 2.6 面向自然语言处理的机器学习
  • 2.7 本章小结
  • 第三章 汉语基本名词短语识别
  • 3.1 基本名词短语相关基本概念
  • 3.1.1 组块识别概述
  • 3.1.2 汉语基本名词短语的定义
  • 3.1.3 评测标准
  • 3.1.4 BIO的标注
  • 3.2 相关研究
  • 3.2.1 基于转换的规则学习方法
  • 3.2.2 基于隐马尔可夫模型的方法
  • 3.2.3 基于最大熵方法
  • 3.3 基于CRFs的汉语基本名词短语识别
  • 3.3.1 CRFs相关理论
  • 3.3.2 算法描述
  • 3.3.3 实验
  • 3.4 基于扩展词性模板的汉语基本名词短语识别
  • 3.4.1 算法描述
  • 3.4.2 词性和词性模板
  • 3.4.3 扩展词性模板
  • 3.4.4 实验结果
  • 3.5 基于规则和统计相结合的汉语基本名词短语识别
  • 3.5.1 算法描述
  • 3.5.2 实验结果
  • 3.6 本章小结
  • 第四章 汉语指代消解算法研究
  • 4.1 指代消解相关问题
  • 4.1.1 指代消解的定义
  • 4.1.2 指代消解相关定义
  • 4.1.3 汉语指代的类型
  • 4.1.4 指代消解的评价标准
  • 4.2 基于机器学习的汉语人称代词指代消解
  • 4.2.1 算法模型描述
  • 4.2.2 特征向量的属性
  • 4.2.3 实验
  • 4.3 基于规则和统计相结合的汉语人称代词指代消解
  • 4.3.1 问题提出
  • 4.3.2 算法描述
  • 4.3.3 实验
  • 4.4 基于双候选模型的汉语人称代词指代消解
  • 4.4.1 问题提出
  • 4.3.2 算法描述
  • 4.4.3 实验
  • 4.5 汉语名词短语指代消解模型
  • 4.5.1 问题的提出
  • 4.5.2 算法描述
  • 4.6 本章小结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 攻读博士期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].基于指代消解的自动文摘方法研究[J]. 情报理论与实践 2010(10)
    • [2].基于预处理的消解研究[J]. 软件导刊 2014(10)
    • [3].指代消解在普通语言学理论与课程实践上的应用研究[J]. 大家 2010(11)
    • [4].基于中心理论的指代消解研究[J]. 计算机科学 2009(06)
    • [5].统计与规则相结合的中文指代消解[J]. 黑龙江科技信息 2014(01)
    • [6].基于Fuzzy Rough集模型的汉语人称代词消解[J]. 计算机科学 2010(01)
    • [7].基于支持向量机的英语名词短语指代消解[J]. 计算机工程 2009(03)
    • [8].指代消解中语义角色特征的研究[J]. 中文信息学报 2009(01)
    • [9].中文人称代词消解研究[J]. 太原科技大学学报 2008(03)
    • [10].共指消解研究方法综述[J]. 中文信息学报 2015(01)
    • [11].基于深度强化学习的维吾尔语人称代词指代消解[J]. 电子学报 2020(06)
    • [12].基于中心理论和话语结构的交互式问答文本指代消解[J]. 中文信息学报 2016(04)
    • [13].面向信息抽取的指代消解探究[J]. 西安文理学院学报(自然科学版) 2015(02)
    • [14].无监督中文名词短语指代消解研究[J]. 计算机工程 2012(17)
    • [15].指代消解中距离特征的研究[J]. 中文信息学报 2008(05)
    • [16].汉语表述识别与指代消解[J]. 计算机工程 2016(09)
    • [17].基于决策树的中文指代消解[J]. 软件导刊 2014(03)
    • [18].指代消解综述[J]. 计算机工程 2010(08)
    • [19].结合规则与语义的中文人称代词指代消解[J]. 数据采集与处理 2017(01)
    • [20].基于深度学习的维吾尔语人称代词指代消解[J]. 中文信息学报 2017(04)
    • [21].零形代词的设定对汉语指代消解的影响[J]. 外国语(上海外国语大学学报) 2015(06)
    • [22].基于范畴类型逻辑的汉语反身代词指代歧义的消解[J]. 湖北大学学报(哲学社会科学版) 2020(03)
    • [23].面向中文指代消解的最优样本比例研究[J]. 计算机工程与应用 2016(17)
    • [24].指代消解研究现状综述[J]. 现代计算机(专业版) 2012(09)
    • [25].中文指代消解名词短语的识别[J]. 计算机光盘软件与应用 2013(21)
    • [26].篇章中指代消解研究综述[J]. 武汉大学学报(理学版) 2014(01)
    • [27].语料对中文名词短语指代消解影响研究[J]. 中文信息学报 2013(03)
    • [28].前瞻中心的排序对指代消解的影响——一项向心理论参数化实证研究[J]. 外国语(上海外国语大学学报) 2009(03)
    • [29].基于树核函数的英文代词消解研究[J]. 中文信息学报 2009(05)
    • [30].浅谈指代消解[J]. 硅谷 2008(24)

    标签:;  ;  ;  ;  ;  

    汉语指代消解及相关技术研究
    下载Doc文档

    猜你喜欢