汉语词和短语的歧义消解研究

汉语词和短语的歧义消解研究

论文摘要

信息网络技术的飞速发展使信息的发布和共享超越了时空限制,基于自然语言处理技术的文档高质量自动处理成为热点研究课题。自然语言中普遍存在着歧义现象。计算机处理自然语言文档时,必然要面对和解决各种歧义问题。歧义消解成为自然语言处理中的核心任务之一。语言中的歧义错综复杂,本文认为,简单的单一分析不可能认识语言歧义的全貌,因而也就不可能高质量地消解歧义,只有对歧义进行多视角综合考察,才能达到此目标。为此,本文从纵横两个视角进行歧义研究。一、基于全信息理论的横向视角:信息有语法、语义和语用三个层次,语言信息同样如此。而每个层次都存在歧义,即有语法歧义,语义歧义和语用歧义。这个角度有助于从语言逻辑层面更清晰地研究歧义特征。二、基于语言单元的纵向视角:汉语的主要语言单元包括词、短语及句子等。而歧义在每一级单元都存在,即有词汇层歧义、短语层歧义以及句子层歧义等。纵向角度便于研究的具体实现,并有可能探索通用的消歧方法。综合这两个角度,本文研究的内容包括,从语法层看的词汇边界歧义和短语边界歧义,从语义层看的词汇多义歧义、短语功能歧义及短语结构歧义。在各种歧义的研究中,本文主要围绕歧义分类、歧义侦测和歧义消解三个问题进行。歧义分类研究各种歧义的特征,歧义侦测是为了发现歧义及确定歧义的位置,而基于歧义特点对侦测出的歧义进行消解则是语言处理的中心任务。从两个视角出发,集中解决三个问题构成了本文的研究框架。本文的主要研究成果包括以下几点:1.对汉语语言信息自动处理时的歧义在特征上进行了分类。将词汇级语法歧义分为交叠歧义和包络歧义两大类。提出了新的歧义侦测和消歧方法;2.利用级联分类方法改进了基于经验定义的短语识别的性能,有效降低了学习器训练时间,进一步从语义角度研究了复合名词短语定界歧义问题,同时实现了跨语料的短语识别及歧义研究;3.用粒度短语的观点处理汉语短语定义模糊的问题,实现了粒度名词短语的定义和识别方法;4.从短语功能角度完成句子骨架成分的识别,消解短语在句子中的句法功能歧义。

论文目录

  • 摘要
  • ABSTRACT
  • 符号说明
  • 第一章 绪论
  • 1.1 自然语言处理的歧义问题及研究意义
  • 1.2 自然语言处理歧义研究的现状
  • 1.3 本文的研究方法
  • 1.4 主要创新点
  • 1.5 内容安排
  • 第二章 词语定界歧义及消解
  • 2.1 汉语词切分任务及困难
  • 2.2 切分歧义成因及类别
  • 2.2.1 切分歧义成因
  • 2.2.2 切分歧义类别
  • 2.3 词语定界歧义消解
  • 2.3.1 消解交叠歧义
  • 2.3.2 消解包络歧义
  • 2.4 SIGHAN国际分词评测
  • 2.4.1 SIGHAN Bakeoff概述
  • 2.4.2 切分系统评测
  • 2.5 小结
  • 第三章 词汇多义歧义及消解
  • 3.1 词义消歧概述
  • 3.2 基于轨道的组合词义消歧
  • 3.2.1 统计算法简介
  • 3.2.2 轨道法词义消歧
  • 3.2.3 实验
  • 3.3 基于 Adaboost的组合词义消歧
  • 3.3.1 Boosting简介
  • 3.3.2 基于 Adaboost MH的词义消歧
  • 3.3.3 实验及结果
  • 3.4 小结
  • 第四章 短语定界歧义及消解
  • 4.1 相关概念介绍
  • 4.2 基于条件随机场的级联短语识别
  • 4.2.1 级联短语识别
  • 4.2.2 实验及结果
  • 4.3 粒度名词短语的识别
  • 4.3.1 粒度名词短语的定义
  • 4.3.2 粒度名词短语的识别
  • 4.3.3 实验及结果
  • 4.4 跨语料的短语识别
  • 4.4.1 语料库及标记
  • 4.4.2 语料库标记的差异及转换
  • 4.4.3 跨语料的短语识别
  • 4.4.4 跨语料短语识别的边界歧义
  • 4.5 小结
  • 第五章 短语结构歧义及消解
  • 5.1 短语结构歧义类型
  • 5.2 名词短语搭配歧义消解(n+n结构)
  • 5.3 n+n搭配歧义消解实验
  • 5.3.1 语义搭配词典构建
  • 5.3.2 实验结果
  • 5.4 小结
  • 第六章 短语功能歧义及消解
  • 6.1 句子骨架成分识别
  • 6.2 复杂长句的处理
  • 6.2.1 子句骨架成分识别
  • 6.2.2 实验及结果
  • 6.3 小结
  • 第七章 结束语
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 附录
  • 附录1. 语料词性标记表
  • 附录2. 基础语料库 DTD文件
  • 攻读博士学位期间发表的论文
  • 致谢
  • 相关论文文献

    • [1].关键短语生成研究现状[J]. 现代计算机 2020(07)
    • [2].基于协同训练的电商领域短语挖掘[J]. 计算机工程 2020(04)
    • [3].基于短语成分表示的中文关系抽取[J]. 数据采集与处理 2020(03)
    • [4].基于风险短语挖掘的知识聚合模型研究[J]. 情报理论与实践 2020(08)
    • [5].基于语言和文化视角下的“吃字短语”研究[J]. 山西能源学院学报 2019(01)
    • [6].三项以上联合短语的特征分析[J]. 兰州文理学院学报(社会科学版) 2017(01)
    • [7].基于多策略过滤的汉日多词短语抽取和对齐[J]. 山东大学学报(理学版) 2015(09)
    • [8].短语知识在文言阅读考查中的应用[J]. 新作文(语文教学研究) 2019(05)
    • [9].高中英语教学中的短语积累及扩展探析[J]. 读写算 2019(04)
    • [10].论比况短语[J]. 语文学刊 2010(15)
    • [11].我会用“的”字短语[J]. 快乐作文 2017(45)
    • [12].短语连一连(英文)[J]. 阅读 2018(Z5)
    • [13].好记实用的押韵短语[J]. 初中生 2018(Z6)
    • [14].中考英语高频短语“连连看”[J]. 初中生天地 2017(33)
    • [15].短语连一连[J]. 疯狂英语(小学版) 2016(06)
    • [16].别样的短语教学 精彩的语用训练[J]. 小学教学设计 2016(22)
    • [17].短语连一连[J]. 疯狂英语(小学版) 2016(11)
    • [18].短语连一连[J]. 阅读 2016(77)
    • [19].主动出击 巧“默”短语[J]. 小学教学设计 2015(06)
    • [20].四字短语 “语”重心长[J]. 语文天地 2015(14)
    • [21].短语动词考点解读[J]. 初中生之友 2013(29)
    • [22].孔庆蕾短语(组诗)[J]. 海燕 2015(06)
    • [23].有关“mouth”的趣味短语[J]. 青苹果 2012(04)
    • [24].have引导的短语[J]. 小学教学设计 2012(36)
    • [25].美国人最爱用的个性短语[J]. 家教世界 2013(01)
    • [26].怎样扩词成短语[J]. 作文世界 2013(Z2)
    • [27].有这样一种四字短语[J]. 初中生 2013(Z5)
    • [28].编辑短语[J]. 民间传奇故事(A卷) 2009(06)
    • [29].运用口诀 巧辨易混短语[J]. 中考金刊 2009(01)
    • [30].运用口诀巧辨易混短语[J]. 学生之友(初中版)(下) 2010(01)

    标签:;  ;  ;  ;  ;  ;  ;  

    汉语词和短语的歧义消解研究
    下载Doc文档

    猜你喜欢