基于多分类器的统计汉语词义消歧方法研究

基于多分类器的统计汉语词义消歧方法研究

论文摘要

词义消歧是计算语言学领域的一个重要基础性研究课题,也是近年来该领域的热点研究问题之一。它对机器翻译、信息检索、内容和主题分析、文本分类、语音识别等领域都有着重要的影响。本文研究的重点是基于统计词义消歧技术,以北京大学计算语言学研究所开发的综合语言知识库为基础,在以下几个方面进行了研究:1.对《人民日报》标注语料的特点及其特征提取方法进行了研究。首先分析了《人民日报》标注语料的结构以及可供使用的消歧知识,然后对语料库中多义词所处上下文中所包含的显性特征信息、半显性特征信息和隐性特征信息等的特点以及它们的提取方法和使用方法进行了研究。2.对一些词义消歧模型进行分析和比较,探讨它们所用特征集的特点以及它们之间的互补性,为多分类器词义消歧模型奠定基础。首先对贝叶斯模型、决策树模型、向量空间模型、最大熵模型等建模方法的模型结构以及特征集的获取方法进行了研究,并对他们在词义消歧上的应用效果及其之间的互补性进行了比较分析。3.提出了一种动态自适应加权投票的多分类器集成方法。在对多种分类器分析的基础上,借鉴模式识别领域集成分类器思想,提出了一种动态自适应加权投票的多分类器集成方法来构建集成分类器。实验结果表明,所提集成分类器使消歧结果达到了91.86%。4.建立了义项标注实验平台。该平台是一个应用框架,集成了词义消歧常用的功能模块如分词、特征提取、结果评测。使用者可以将自己的消歧算法加入到该平台中,从而省去重复性工作,将精力放于算法的研究。综上所述,本文在词义消歧方法的集成上做了一些有益的尝试,研究表明该方法可以有效的提高词义消歧的准确率,必使汉语词义消歧的研究迈进一步,并为自然语言处理相关领域使用集成方法提供启迪。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 引言
  • 1.1 课题的提出及研究意义
  • 1.1.1 词义消歧的定义
  • 1.1.2 词义消歧研究的意义
  • 1.2 词义消歧方法概述
  • 1.3 本文研究的内容
  • 1.4 本文的组织
  • 第2章 语言知识资源分析和消歧特征提取
  • 2.1 语言知识资源分析
  • 2.1.1 人民日报标注语料库
  • 2.2 消歧特征的提取
  • 2.2.1 显性信息的提取和使用
  • 2.2.2 半显性信息的提取和使用
  • 2.2.3 隐性信息的提取和使用
  • 2.3 本章小结
  • 第3章 现有词义消歧模型的分析与比较
  • 3.1 四种词义消歧建模方法
  • 3.1.1 贝叶斯词义消歧模型
  • 3.1.2 决策树词义消歧模型
  • 3.1.3 向量空间词义消歧模型
  • 3.1.4 最大熵词义消歧模型
  • 3.2 各词义消歧模型试验结果及比较
  • 3.2.1 实验设计与实现
  • 3.2.2 实验结果分析
  • 3.3 本章小结
  • 第4章 多分类器集成的词义消歧设计与实现
  • 4.1 多分类器集成技术
  • 4.2 单分类器的选择
  • 4.3 多分类器集成的主要方法
  • 4.4 动态自适应加权投票分类器集成算法
  • 4.5 实验设计与实现
  • 4.6 实验结果分析比较
  • 4.7 本章小结
  • 第5章 义项标注实验平台的构建
  • 5.1 义项标注平台的结构和功能
  • 5.1.1 分词模块
  • 5.1.2 特征选择模块
  • 5.1.3 机器学习模块
  • 5.1.4 词义标注模块
  • 5.1.5 结果评测模块
  • 5.2 字标注分词系统的设计与实现
  • 5.2.1 隐马尔可夫模型
  • 5.2.2 基于 HMM 的字标注分词算法模型
  • 5.2.3 基于 HMM 的分词系统设计与实现
  • 5.3 全文检索模块的设计与实现
  • 5.3.1 字典组织结构的分析
  • 5.3.2 词典组织结构的设计
  • 5.3.3 地址数据组织结构的分析
  • 5.3.4 地址数据结构的设计
  • 5.3.5 索引和查询算法设计
  • 5.3.6 实验设计与分析
  • 5.4 本章小结
  • 第6章 结论
  • 参考文献
  • 附录 A 多义词词频表
  • 个人简历及在读期间发表的论文与研究成果
  • 致谢
  • 相关论文文献

    • [1].基于动态分类器集成系统的卷烟感官质量预测方法[J]. 计算机应用与软件 2020(01)
    • [2].基于标准数据集的分类器融合学习模型[J]. 微型电脑应用 2020(04)
    • [3].一种自适应子融合集成多分类器方法[J]. 计算机测量与控制 2019(04)
    • [4].基于多分类器融合的近红外光谱技术鉴别蜂蜜品种[J]. 化学分析计量 2019(03)
    • [5].基于分类器的身份证号码识别研究[J]. 贵州科学 2018(01)
    • [6].一种基于多分类器融合的人体运动行为识别模型[J]. 计算机科学 2016(12)
    • [7].一种基于混淆矩阵的分类器选择方法[J]. 河南理工大学学报(自然科学版) 2017(02)
    • [8].一种代价敏感的三类分类器评估方法的研究与应用[J]. 通化师范学院学报 2017(08)
    • [9].基于多分类器组合的遥感土地利用分类研究[J]. 安徽农业科学 2015(32)
    • [10].多分类器融合与单分类器影像分类比较研究[J]. 矿山测量 2016(04)
    • [11].《未来垃圾分类器》[J]. 幼儿教育 2020(14)
    • [12].基于多分类器组合的城市不透水面提取研究[J]. 城市地理 2017(04)
    • [13].《垃圾分类器》[J]. 辅导员 2016(11)
    • [14].多分类器融合的遥感影像分类方法实验研究[J]. 全球定位系统 2020(05)
    • [15].一种基于核聚类的多分类器选择算法[J]. 电子技术与软件工程 2020(13)
    • [16].基于一种新的级联分类器的目标检测系统[J]. 现代电子技术 2020(01)
    • [17].最佳的分类器链局部检测与挖掘算法[J]. 计算机工程与设计 2017(11)
    • [18].基于多分类器融合与模糊综合评判的滚动轴承故障诊断[J]. 中国科技论文 2016(04)
    • [19].近红外光谱和多分类器融合的葡萄酒品种判别研究[J]. 光谱学与光谱分析 2016(11)
    • [20].基于多分类器集成的语音情感识别[J]. 微电子学与计算机 2015(07)
    • [21].基于集成分类器的流量识别技术研究[J]. 科技视界 2015(33)
    • [22].二叉树型多分类器融合的轴承故障诊断方法[J]. 计算机工程与应用 2015(21)
    • [23].智能垃圾分类器[J]. 科学启蒙 2013(12)
    • [24].一种新的多分类器融合方法[J]. 西南师范大学学报(自然科学版) 2014(01)
    • [25].动态加权投票的多分类器聚合[J]. 现代计算机(专业版) 2014(05)
    • [26].面向用户观点分析的多分类器集成和优化技术[J]. 计算机学报 2013(08)
    • [27].基于证据理论的优化集成分类器融合算法及应用[J]. 化工学报 2012(09)
    • [28].多类不平衡数据上的分类器性能比较研究[J]. 计算机工程 2011(10)
    • [29].基于多分类器融合的语音识别方法研究[J]. 重庆邮电大学学报(自然科学版) 2011(04)
    • [30].基于粗糙集约简的多分类器系统构造方法[J]. 计算机工程与应用 2010(03)

    标签:;  ;  ;  ;  ;  

    基于多分类器的统计汉语词义消歧方法研究
    下载Doc文档

    猜你喜欢