
论文摘要
词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用。因此词义排歧方法的研究具有重要的理论和实践意义。本文主要研究在标注语料库支持下的基于有指导学习算法的词义排歧方法。 在词义排歧模型中引入有指导的AdaBoost.MH算法。首先通过简单决策树算法对多义词上下文中的知识源进行学习,产生准确率较低的弱规则;之后,通过AdaBoost.MH算法对这些弱规则进行加强;经过若干次迭代后,最终得到一个准确度更高的规则,即为最终的排歧模型。同时,针对系统的学习效率和实用性给出了一种简单终止算法迭代的方法。 为评测AdaBoost.MH算法排歧效果,本文在SENSEVAL3中文语料上进行了AdaBoost.MH算法和贝叶斯算法的词义排歧对比实验,结果表明AdaBoost.MH算法比贝叶斯算法具有更强的学习能力,前者的开放测试正确率比后者的开放测试正确率高出近8个百分点。 此外,为获取多义词上下文中的知识源,本文在使用传统的词性标注和局部搭配序列知识源的基础上,引入了一种新的知识源,即语义范畴。实验结果表明语义范畴的引入有助于提高算法的学习效率和词义排歧的正确率。 在对6个典型汉语多义词和SENSEVAL3中文语料中20个汉语多义词的词义消歧实验中,AdaBoost.MH算法获得了较高的开放测试正确率,前者的平均开放测试正确率达到85.75%,后者的平均开放测试正确率达到75.84%。 人工建立有指导学习算法所需的大规模标注语料是相当困难的,为解决此问题,本文给出了一种利用WWW资源自动构建适合汉语多义词排歧的标注语料库的方法。并通过实验验证了这种语料库的可用性。
论文目录
摘要Abstract引言1 问题描述1.1 词义排歧的提出及其意义1.1.1 词义排歧1.1.2 词义排歧研究的意义1.2 国内外的研究状况1.2.1 有指导排歧方法1.2.2 基于词典的排歧方法1.2.3 无指导的排歧方法1.3 面临的主要问题1.3.1 上下文选择1.3.2 词义的划分1.4 词义排歧的评测方法1.5 本文的工作2 面向WSD的AdaBoost.MH算法模型2.1 基本概念2.2 AdaBoost.MH算法简介2.2.1 AdaBoost算法背景2.2.2 AdaBoost算法基本思想2.2.3 AdaBoost算法误差的分析2.2.4 多类分类问题2.2.5 AdaBoost算法的优缺点2.3 面向WSD的AdaBoost.MH算法描述t的选取'>2.4 弱学习器的设计及Zt的选取3 上下文特征的选择3.1 相邻词的词性标注(POS)3.2 局部搭配信息3.3 语义范畴信息3.3.1 《同义词词林》简介3.3.2 对《同义词词林》中未登录词的处理3.3.3 语义范畴信息的选取4 汉语AdaBoost.MH-WSD实验4.1 语料库4.1.1 人民日报语料4.1.2 SENSEVAL3中文语料4.2 汉语AdaBoost.MH-WSD模型4.3 实验评测及结果4.3.1 人民日报语料实验结果与评测4.3.2 SENSEVAL3中文语料实验结果与评测4.4 算法中迭代次数的确定4.5 语义信息的引入对排歧效果的影响4.5.1 人民日报语料实验4.5.2 SENSEVAL3中文语料实验5 自动建立带标注语料库的方法5.1 自动构建标注语料库的模型5.1.1 搜索关键字的建立5.1.2 语料库的建立和修剪5.2 语料库可用性的评测实验与分析5.2.1 语料库5.2.2 语料库中搜索到的新搭配5.2.3 上下文特征的选取5.2.4 实验结果及评测5.2.5 迭代次数的分析结论参考文献附录A SENSEVAL3中文语料示例附录B 标注语义范畴信息的语料示例附录C 《同义词词林扩展版》语义信息示例攻读硕士学位期间发表学术论文情况致谢大连理工大学学位论文版权使用授权书
相关论文文献
标签:自然语言处理论文; 词义排歧论文; 算法论文; 知识源论文;