论文摘要
词义消歧一直以来都是自然语言处理领域的一个关键课题,对众多研究领域都具有十分重要的理论和实践意义。通过对现有词义消歧方法的全面分析,发现目前主流的词义消歧方法主要存在如下两点不足之处,首先,有指导的统计词义消歧方法对语料库具有较强的依赖性,且大规模语料库难以构建,从实用角度而言具有局限性;其次,以词典中的实例为资源的词义消歧方法通常面临实例不充分以及未登录词难以标注等问题。通过上面的分析,本文提出了通过构建搭配库来弥补大规模语料获取困难以及词典中实例不足的思想,文中还给出了搭配库构建的原则以及设计方案。本文在已有概念相似度、相关度计算方法的基础上进一步引入义原在义原树中的层次信息和语义框架信息对相似度、相关度算法进行改进,实验证明,改进后的概念相似度、相关度计算方法得到的结果更合理。此外,本文还提出了一种通过对未登录词进行切分重组等操作构建等价上位词的方法为未登录词寻求一个比较合理的可替代义项,通过对十个未登录词进行义项标注测试,得到的标注结果较为合理。最后,本文搭建了一个基于知网的多种方法融合的词义消歧系统,该系统首先利用搭配库中的搭配信息实现初步的词义消歧,然后通过相似度和相关度相结合的方法完成进一步的词义消歧,实验结果显示,该方法可以获得较好的词义消歧结果。
论文目录
摘要Abstract第1章 绪论1.1 背景介绍1.2 课题的提出及研究意义1.3 本文的工作1.4 论文的组织第2章 词义消歧方法概述2.1 基于规则的词义消歧2.2 基于词典的词义消歧2.3 基于语料的词义消歧方法2.3.1 有指导词义消歧2.3.2 无指导词义消歧方法2.4 汉语词义消歧的现状2.5 现有的评测方法2.6 小结第3章 基于搭配库的词义消歧3.1 基于知网的搭配库的构建3.1.1 知网简介3.1.2 搭配库构建动机3.1.3 搭配的选取2检验'>3.1.4 χ2检验3.1.5 搭配的义项标注3.2 基于搭配库的词义消歧3.2.1 基于搭配库的词义消歧方法3.2.2 实验结果3.3 小结第4章 基于相似度和相关度的词义消歧4.1 相似度计算4.2 基于相似度的词义消歧4.2.1 基于相似度的词义消歧方法4.2.2 实验结果与分析4.3 相关度计算4.3.1 义原相关度计算4.3.2 相关词语义原的关联度4.4 基于相关度的词义消歧4.4.1 基于相关度的词义消歧方法4.4.2 实验结果与分析4.5 小结第5章 未登录词的语义标注5.1 未登录词语义标注的意义5.2 未登录词语义标注的方法5.2.1 第一类未登录词的语义标注5.2.2 第二类未登录词的语义标注5.3 实验结果5.4 小结第6章 多种方法融合的词义消歧6.1 多种方法融合的词义消歧方法6.2 系统结构设计6.3 实验结果与分析6.3.1 对比实验的选取6.3.2 实验结果与分析6.4 小结结论参考文献致谢攻读硕士期间发表(含录用)的学术论文
相关论文文献
标签:词义消歧论文; 知网论文; 搭配库论文; 相似度论文; 相关度论文;