基于知网的汉语词义消歧方法的研究

基于知网的汉语词义消歧方法的研究

论文摘要

词义消歧一直以来都是自然语言处理领域的一个关键课题,对众多研究领域都具有十分重要的理论和实践意义。通过对现有词义消歧方法的全面分析,发现目前主流的词义消歧方法主要存在如下两点不足之处,首先,有指导的统计词义消歧方法对语料库具有较强的依赖性,且大规模语料库难以构建,从实用角度而言具有局限性;其次,以词典中的实例为资源的词义消歧方法通常面临实例不充分以及未登录词难以标注等问题。通过上面的分析,本文提出了通过构建搭配库来弥补大规模语料获取困难以及词典中实例不足的思想,文中还给出了搭配库构建的原则以及设计方案。本文在已有概念相似度、相关度计算方法的基础上进一步引入义原在义原树中的层次信息和语义框架信息对相似度、相关度算法进行改进,实验证明,改进后的概念相似度、相关度计算方法得到的结果更合理。此外,本文还提出了一种通过对未登录词进行切分重组等操作构建等价上位词的方法为未登录词寻求一个比较合理的可替代义项,通过对十个未登录词进行义项标注测试,得到的标注结果较为合理。最后,本文搭建了一个基于知网的多种方法融合的词义消歧系统,该系统首先利用搭配库中的搭配信息实现初步的词义消歧,然后通过相似度和相关度相结合的方法完成进一步的词义消歧,实验结果显示,该方法可以获得较好的词义消歧结果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 背景介绍
  • 1.2 课题的提出及研究意义
  • 1.3 本文的工作
  • 1.4 论文的组织
  • 第2章 词义消歧方法概述
  • 2.1 基于规则的词义消歧
  • 2.2 基于词典的词义消歧
  • 2.3 基于语料的词义消歧方法
  • 2.3.1 有指导词义消歧
  • 2.3.2 无指导词义消歧方法
  • 2.4 汉语词义消歧的现状
  • 2.5 现有的评测方法
  • 2.6 小结
  • 第3章 基于搭配库的词义消歧
  • 3.1 基于知网的搭配库的构建
  • 3.1.1 知网简介
  • 3.1.2 搭配库构建动机
  • 3.1.3 搭配的选取
  • 2检验'>3.1.4 χ2检验
  • 3.1.5 搭配的义项标注
  • 3.2 基于搭配库的词义消歧
  • 3.2.1 基于搭配库的词义消歧方法
  • 3.2.2 实验结果
  • 3.3 小结
  • 第4章 基于相似度和相关度的词义消歧
  • 4.1 相似度计算
  • 4.2 基于相似度的词义消歧
  • 4.2.1 基于相似度的词义消歧方法
  • 4.2.2 实验结果与分析
  • 4.3 相关度计算
  • 4.3.1 义原相关度计算
  • 4.3.2 相关词语义原的关联度
  • 4.4 基于相关度的词义消歧
  • 4.4.1 基于相关度的词义消歧方法
  • 4.4.2 实验结果与分析
  • 4.5 小结
  • 第5章 未登录词的语义标注
  • 5.1 未登录词语义标注的意义
  • 5.2 未登录词语义标注的方法
  • 5.2.1 第一类未登录词的语义标注
  • 5.2.2 第二类未登录词的语义标注
  • 5.3 实验结果
  • 5.4 小结
  • 第6章 多种方法融合的词义消歧
  • 6.1 多种方法融合的词义消歧方法
  • 6.2 系统结构设计
  • 6.3 实验结果与分析
  • 6.3.1 对比实验的选取
  • 6.3.2 实验结果与分析
  • 6.4 小结
  • 结论
  • 参考文献
  • 致谢
  • 攻读硕士期间发表(含录用)的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于知网的汉语词义消歧方法的研究
    下载Doc文档

    猜你喜欢