论文摘要
词义消歧是自然语言处理中亟待解决的一个关键问题,词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,也是近些年来是计算语言学和自然语言处理领域一个重要的研究课题。本文对词义消歧的相关研究方法和词义消歧的知识源进行了综合评述。针对当前词义消歧常见的问题采用了一种新的解决方法。近年来计算机的运算速度成倍增长及存储设备容量的增加也使得基于统计的方法能够发展下去,所以近年来基于统计的方法也得到了较快的发展。词典资源和语料库是基于统计方法消歧消歧常用的资源,基于有指导的词义消歧需要语料库来进行训练,为消歧提供判断词义的信息。本文根据实际需要选择了扩充的词典资源,使之更符合词义消歧的需要。数据稀疏及小概率词义的问题一直是词义消歧领域很难解决的问题。为了缓解有导词义消歧方法中人工标注语料的繁重劳动以及数据稀疏问题,我们分别对歧义词和歧义词的指示词进行了同义词扩展和同范畴扩展,以此来提高现有语料的使用效率,解决数据稀疏的问题。通过设计实验,验证了本文方法是有效的,该方法能够较有效的缓解有导词义消歧方法中数据稀疏问题及小概率词义问题。本文的方法使词义消歧的正确率有了一定的提高,对词义消歧的方法的研究具有一定的参考价值。
论文目录
摘要Abstract第1章 绪论1.1 课题的研究背景及意义1.1.1 课题的研究背景1.1.2 词义消歧的应用领域1.2 国内外学术界对词义消歧的研究1.2.1 消歧的定义1.2.2 国外的研究状况1.2.3 国内的研究状况1.3 词义消歧遇到的主要难题1.3.1 上下文选择1.3.2 词典(或知识库)的建设1.3.3 语料库的获得1.3.4 词义的划分1.4 本文的主要研究内容1.4.1 课题的来源1.4.2 本文的研究内容1.5 本文的组织结构第2章 统计词义消歧的资源建设及研究方法2.1 词义消歧相关资源介绍2.1.1 HowNet2.1.2 WordNet2.1.3 汉语词典2.1.4 同义词词林2.1.5 语料库2.2 词义消歧方法概述2.2.1 基于规则的词义消歧方法2.2.2 基于词典的词义消歧方法2.2.3 有指导的词义消歧方法2.2.4 无指导的词义消歧方法2.3 本章小结第3章 语义范畴扩展概述3.1 语义学中语义范畴的概念3.2 语义范畴中的原型及扩展3.3 同义词及近义词的分类依据3.4 语义范畴扩展的方法3.4.1 歧义词的扩展3.4.2 指示词的扩展3.5 本章小结第4章 基于歧义词扩展的词义消歧4.1 歧义词扩展4.1.1 标注语料内的歧义词扩展4.1.2 无标注语料中的歧义词扩展4.2 歧义词扩展的统计方法实现4.2.1 贝叶斯分类模型4.2.2 基于贝叶斯分类的实现4.3 实验结果及评测分析4.3.1 实验用语料库4.3.2 结果及评测分析4.4 本章小结第5章 基于指示词扩展的词义消歧5.1 指示词的识别5.2 扩展指示词5.3 实验结果及评测分析5.3.1 实验用语料库5.3.2 结果及评测分析5.3.3 两种语义扩展方法的对比分析5.4 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢
相关论文文献
标签:自然语言处理论文; 词义消歧论文; 语义范畴扩展论文; 语料库论文;