基于AdaBoost.MH算法的汉语多义词消歧

基于AdaBoost.MH算法的汉语多义词消歧

论文摘要

词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用。因此词义排歧方法的研究具有重要的理论和实践意义。本文主要研究在标注语料库支持下的基于有指导学习算法的词义排歧方法。 在词义排歧模型中引入有指导的AdaBoost.MH算法。首先通过简单决策树算法对多义词上下文中的知识源进行学习,产生准确率较低的弱规则;之后,通过AdaBoost.MH算法对这些弱规则进行加强;经过若干次迭代后,最终得到一个准确度更高的规则,即为最终的排歧模型。同时,针对系统的学习效率和实用性给出了一种简单终止算法迭代的方法。 为评测AdaBoost.MH算法排歧效果,本文在SENSEVAL3中文语料上进行了AdaBoost.MH算法和贝叶斯算法的词义排歧对比实验,结果表明AdaBoost.MH算法比贝叶斯算法具有更强的学习能力,前者的开放测试正确率比后者的开放测试正确率高出近8个百分点。 此外,为获取多义词上下文中的知识源,本文在使用传统的词性标注和局部搭配序列知识源的基础上,引入了一种新的知识源,即语义范畴。实验结果表明语义范畴的引入有助于提高算法的学习效率和词义排歧的正确率。 在对6个典型汉语多义词和SENSEVAL3中文语料中20个汉语多义词的词义消歧实验中,AdaBoost.MH算法获得了较高的开放测试正确率,前者的平均开放测试正确率达到85.75%,后者的平均开放测试正确率达到75.84%。 人工建立有指导学习算法所需的大规模标注语料是相当困难的,为解决此问题,本文给出了一种利用WWW资源自动构建适合汉语多义词排歧的标注语料库的方法。并通过实验验证了这种语料库的可用性。

论文目录

  • 摘要
  • Abstract
  • 引言
  • 1 问题描述
  • 1.1 词义排歧的提出及其意义
  • 1.1.1 词义排歧
  • 1.1.2 词义排歧研究的意义
  • 1.2 国内外的研究状况
  • 1.2.1 有指导排歧方法
  • 1.2.2 基于词典的排歧方法
  • 1.2.3 无指导的排歧方法
  • 1.3 面临的主要问题
  • 1.3.1 上下文选择
  • 1.3.2 词义的划分
  • 1.4 词义排歧的评测方法
  • 1.5 本文的工作
  • 2 面向WSD的AdaBoost.MH算法模型
  • 2.1 基本概念
  • 2.2 AdaBoost.MH算法简介
  • 2.2.1 AdaBoost算法背景
  • 2.2.2 AdaBoost算法基本思想
  • 2.2.3 AdaBoost算法误差的分析
  • 2.2.4 多类分类问题
  • 2.2.5 AdaBoost算法的优缺点
  • 2.3 面向WSD的AdaBoost.MH算法描述
  • t的选取'>2.4 弱学习器的设计及Zt的选取
  • 3 上下文特征的选择
  • 3.1 相邻词的词性标注(POS)
  • 3.2 局部搭配信息
  • 3.3 语义范畴信息
  • 3.3.1 《同义词词林》简介
  • 3.3.2 对《同义词词林》中未登录词的处理
  • 3.3.3 语义范畴信息的选取
  • 4 汉语AdaBoost.MH-WSD实验
  • 4.1 语料库
  • 4.1.1 人民日报语料
  • 4.1.2 SENSEVAL3中文语料
  • 4.2 汉语AdaBoost.MH-WSD模型
  • 4.3 实验评测及结果
  • 4.3.1 人民日报语料实验结果与评测
  • 4.3.2 SENSEVAL3中文语料实验结果与评测
  • 4.4 算法中迭代次数的确定
  • 4.5 语义信息的引入对排歧效果的影响
  • 4.5.1 人民日报语料实验
  • 4.5.2 SENSEVAL3中文语料实验
  • 5 自动建立带标注语料库的方法
  • 5.1 自动构建标注语料库的模型
  • 5.1.1 搜索关键字的建立
  • 5.1.2 语料库的建立和修剪
  • 5.2 语料库可用性的评测实验与分析
  • 5.2.1 语料库
  • 5.2.2 语料库中搜索到的新搭配
  • 5.2.3 上下文特征的选取
  • 5.2.4 实验结果及评测
  • 5.2.5 迭代次数的分析
  • 结论
  • 参考文献
  • 附录A SENSEVAL3中文语料示例
  • 附录B 标注语义范畴信息的语料示例
  • 附录C 《同义词词林扩展版》语义信息示例
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 大连理工大学学位论文版权使用授权书
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于AdaBoost.MH算法的汉语多义词消歧
    下载Doc文档

    猜你喜欢