基于语义范畴扩展的词义消歧的研究

基于语义范畴扩展的词义消歧的研究

论文摘要

词义消歧是自然语言处理中亟待解决的一个关键问题,词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,也是近些年来是计算语言学和自然语言处理领域一个重要的研究课题。本文对词义消歧的相关研究方法和词义消歧的知识源进行了综合评述。针对当前词义消歧常见的问题采用了一种新的解决方法。近年来计算机的运算速度成倍增长及存储设备容量的增加也使得基于统计的方法能够发展下去,所以近年来基于统计的方法也得到了较快的发展。词典资源和语料库是基于统计方法消歧消歧常用的资源,基于有指导的词义消歧需要语料库来进行训练,为消歧提供判断词义的信息。本文根据实际需要选择了扩充的词典资源,使之更符合词义消歧的需要。数据稀疏及小概率词义的问题一直是词义消歧领域很难解决的问题。为了缓解有导词义消歧方法中人工标注语料的繁重劳动以及数据稀疏问题,我们分别对歧义词和歧义词的指示词进行了同义词扩展和同范畴扩展,以此来提高现有语料的使用效率,解决数据稀疏的问题。通过设计实验,验证了本文方法是有效的,该方法能够较有效的缓解有导词义消歧方法中数据稀疏问题及小概率词义问题。本文的方法使词义消歧的正确率有了一定的提高,对词义消歧的方法的研究具有一定的参考价值。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的研究背景及意义
  • 1.1.1 课题的研究背景
  • 1.1.2 词义消歧的应用领域
  • 1.2 国内外学术界对词义消歧的研究
  • 1.2.1 消歧的定义
  • 1.2.2 国外的研究状况
  • 1.2.3 国内的研究状况
  • 1.3 词义消歧遇到的主要难题
  • 1.3.1 上下文选择
  • 1.3.2 词典(或知识库)的建设
  • 1.3.3 语料库的获得
  • 1.3.4 词义的划分
  • 1.4 本文的主要研究内容
  • 1.4.1 课题的来源
  • 1.4.2 本文的研究内容
  • 1.5 本文的组织结构
  • 第2章 统计词义消歧的资源建设及研究方法
  • 2.1 词义消歧相关资源介绍
  • 2.1.1 HowNet
  • 2.1.2 WordNet
  • 2.1.3 汉语词典
  • 2.1.4 同义词词林
  • 2.1.5 语料库
  • 2.2 词义消歧方法概述
  • 2.2.1 基于规则的词义消歧方法
  • 2.2.2 基于词典的词义消歧方法
  • 2.2.3 有指导的词义消歧方法
  • 2.2.4 无指导的词义消歧方法
  • 2.3 本章小结
  • 第3章 语义范畴扩展概述
  • 3.1 语义学中语义范畴的概念
  • 3.2 语义范畴中的原型及扩展
  • 3.3 同义词及近义词的分类依据
  • 3.4 语义范畴扩展的方法
  • 3.4.1 歧义词的扩展
  • 3.4.2 指示词的扩展
  • 3.5 本章小结
  • 第4章 基于歧义词扩展的词义消歧
  • 4.1 歧义词扩展
  • 4.1.1 标注语料内的歧义词扩展
  • 4.1.2 无标注语料中的歧义词扩展
  • 4.2 歧义词扩展的统计方法实现
  • 4.2.1 贝叶斯分类模型
  • 4.2.2 基于贝叶斯分类的实现
  • 4.3 实验结果及评测分析
  • 4.3.1 实验用语料库
  • 4.3.2 结果及评测分析
  • 4.4 本章小结
  • 第5章 基于指示词扩展的词义消歧
  • 5.1 指示词的识别
  • 5.2 扩展指示词
  • 5.3 实验结果及评测分析
  • 5.3.1 实验用语料库
  • 5.3.2 结果及评测分析
  • 5.3.3 两种语义扩展方法的对比分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于语义范畴扩展的词义消歧的研究
    下载Doc文档

    猜你喜欢