词义消歧语料库自动获取方法研究

词义消歧语料库自动获取方法研究

论文摘要

一词多义现象给计算机对自然语言的处理带来了许多困难,有不少自然语言理解领域的问题归根到底是解决词语歧义的问题。从人们最初注意到歧义的影响至今已经过去了60多个年头,在这段时间里,学术界提出了许多词义消歧的方法。随着计算机处理大规模文本能力的日益增强,采用有指导机器学习方法的词义消歧以其突出的高准确率逐渐成为了主流。不过,有指导方法依赖于足够的训练语料。而这些语料的人工标注费时费力,且难以保证一致性。由训练语料不足导致的数据稀疏问题限制了有指导方法的推广。于是,一些以自动获取训练语料为目的的研究因而展开,其中使用同义词扩展训练语料的方法用到的资源代价较低,可扩展性较好。但是,经过实验发现,用这种方法获取的语料噪声较大,偏置较高。为此,本文以解决如何有效自动获取训练语料的问题为着眼点,提出先扩展再验证的两阶段策略,通过验证过程消除扩展训练语料中的噪声。这里着重探讨基于语言模型和基于点互信息的两种方式对扩展语料质量的验证能力。为了后面的对比实验,文章首先实现了一个基于SVM的有指导词义消歧系统。在Semeval-2007英文采样歧义词语料上的对比实验表明了使用线性核函数的SVM性能最佳。接下来利用Senseval-3中文采样歧义词评测语料和Semeval-2007英文采样歧义词评测语料中目标歧义词的同义词,分别从互联网和生语料库上获取了词义消歧的候选扩展语料,然后分别使用语言模型和点互信息方法对这些候选进行过滤,最后应用这些扩展语料于有指导系统中。实验结果显示,这两种验证方法均具有一定的筛选能力,并使系统性能得到改善。在中文评测集上,语言模型验证方法使系统的准确率从62.00%提高到63.06%,在英文评测集上,点互信息验证方法使系统准确率从88.19%提高到88.46%。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 词义消歧的发展
  • 1.3 词义消歧的应用
  • 1.4 词义消歧的基本方法
  • 1.4.1 基于词典的词义消歧
  • 1.4.2 基于有标注语料的词义消歧
  • 1.4.3 基于无标注语料的词义消歧
  • 1.5 本文的研究内容
  • 第2章 基于SVM的词义消歧方法研究
  • 2.1 引言
  • 2.2 基于SVM的词义消歧系统
  • 2.2.1 问题定义
  • 2.2.2 系统结构
  • 2.2.3 支撑向量机的原理和实现
  • 2.2.4 特征抽取
  • 2.3 评测与实验结果
  • 2.4 本章小结
  • 第3章 基于语言模型的词义消歧语料自动获取
  • 3.1 引言
  • 3.2 相关工作
  • 3.3 语言模型验证
  • 3.3.1 从互联网获取词义消歧语料
  • 3.3.2 语言模型验证
  • 3.4 评测的实验设置
  • 3.4.1 语料
  • 3.4.2 有指导词义消歧系统
  • 3.4.3 语言模型的实现
  • 3.5 实验结果
  • 3.5.1 基于人工标注语料的系统
  • 3.5.2 基于互联网语料的系统
  • 3.5.3 基于语言模型验证的系统
  • 3.6 本章小结
  • 第4章 基于点互信息的词义消歧语料自动获取
  • 4.1 引言
  • 4.2 相关工作
  • 4.3 基于点互信息的验证
  • 4.3.1 扩展语料的获取
  • 4.3.2 点互信息
  • 4.4 实验设置
  • 4.4.1 实验数据
  • 4.4.2 有指导词义消歧系统
  • 4.4.3 点互信息验证的实现
  • 4.5 实验结果
  • 4.5.1 基于人工标注语料的系统
  • 4.5.2 基于点互信息验证语料的系统
  • 4.6 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].基于句对质量和覆盖度的统计机器翻译训练语料选取[J]. 中文信息学报 2011(02)
    • [2].论语料编选原则之间的关系——以语音训练语料为例[J]. 华文教学与研究 2011(03)
    • [3].限定领域语言模型训练语料的词类扩展方法[J]. 计算机系统应用 2011(11)
    • [4].小训练语料下基于均值超矢量聚类的说话人确认方法[J]. 数据采集与处理 2014(02)
    • [5].基于弱监督的属性关系抽取方法[J]. 计算机应用 2014(01)
    • [6].GIZA++计算性能分析[J]. 计算机工程与科学 2010(05)
    • [7].基于条件随机场汉语分词的语料规模量化研究[J]. 电脑与电信 2012(07)
    • [8].基于弱监督学习的中文百科数据属性抽取[J]. 电子科技大学学报 2014(05)
    • [9].TDT中新发现话题的分类研究与实现[J]. 武汉理工大学学报(信息与管理工程版) 2009(05)
    • [10].基于SVM和词间特征的新词识别研究[J]. 计算机技术与发展 2012(05)
    • [11].基于上下文翻译的有监督词义消歧研究[J]. 计算机科学 2017(04)
    • [12].基于LFMMI准则的低资源普通话识别改进[J]. 计算机工程与设计 2019(09)
    • [13].基于数据增强及领域适应的神经机器翻译技术[J]. 江西师范大学学报(自然科学版) 2019(06)
    • [14].融合多类型特征的特定领域实体识别研究[J]. 计算机应用与软件 2019(11)
    • [15].机器翻译自动评价中领域知识复述抽取研究[J]. 北京大学学报(自然科学版) 2017(02)
    • [16].一种词法分析与字标注分词结合的方法[J]. 电脑知识与技术 2012(08)
    • [17].基于三元词组模式的微博情感分类方法[J]. 山西大学学报(自然科学版) 2015(02)
    • [18].基于支持向量机和约束条件的新词识别研究[J]. 计算机技术与发展 2014(01)
    • [19].第七届全国机器翻译研讨会机器翻译评测总结[J]. 中文信息学报 2012(01)
    • [20].基于半监督隐马尔科夫模型的汉语词性标注研究[J]. 小型微型计算机系统 2015(12)
    • [21].使用源语言复述知识改善统计机器翻译性能[J]. 北京大学学报(自然科学版) 2015(02)
    • [22].中文专利中本体关系获取研究[J]. 现代图书情报技术 2013(10)
    • [23].中文分词中未登录词分布规律及处理方法研究[J]. 解放军外国语学院学报 2013(05)
    • [24].基于词典信息的先秦汉语全文词义标注方法研究[J]. 中文信息学报 2012(03)
    • [25].基于多重过滤策略的科技文献自动标引方法研究[J]. 情报理论与实践 2012(12)
    • [26].面向汉语建模的自适应词表生成算法[J]. 自动化学报 2008(01)
    • [27].面向非结构化文本的开放式实体属性抽取[J]. 江西师范大学学报(自然科学版) 2013(03)
    • [28].统计与词典相结合的领域自适应中文分词[J]. 中文信息学报 2012(02)
    • [29].基于双语句对覆盖度的维汉机器翻译语料选取技术[J]. 中国科学技术大学学报 2017(04)
    • [30].基于隐马尔可夫模型的主观句识别[J]. 中文信息学报 2016(04)

    标签:;  ;  ;  ;  

    词义消歧语料库自动获取方法研究
    下载Doc文档

    猜你喜欢