基于知识自动获取的无指导译文消歧方法研究

论文摘要

这是个互联网的世界,使用高效的搜索引擎在互联网获取信息已经成为当代人们获取信息的最重要手段。在日益国际化的信息中,不同种语言之间的理解与处理一直存在着难以逾越的鸿沟,这就形成了人们对机器翻译、跨语言信息检索与处理的迫切需求。目前对此研究仍有诸多难题亟需解决,其主要之一就是,如何为源语言多义词选择语义正确对应的目标语译文词汇的问题,称之为译文消歧。译文消歧及与之相似的在单语范畴内的词义消歧一直是自然语言处理领域基础研究课题,它也是自然语言处理技术的重点和难点之一。针对译文消歧及词义消歧的现状,通过对各类无指导消歧方法的比较分析,本文认为,目前无指导译文消歧的关键问题是消歧知识的自动获取与利用、克服数据稀疏及双语语义词典建设。因此,本文没有在机器学习算法、消歧特征选择等问题上做过多的研究与探讨,而是充分关注与挖掘无指导译文消歧方法中最核心的内容——知识获取,利用这些消歧知识来完成无指导译文消歧任务,同时克服数据稀疏问题。由此思想出发,本文提出了一系列逐步递进的无指导译文消歧知识获取以及消歧的创新方法,这些创新方法均利用了国际标准语义评测语料进行评测与对比分析,并均超过了以往可比较的最好无指导系统。最后,本文还进行了另一个关键问题的研究,即双语语义词典的自动构建。本文具体研究内容包括以下几个方面:1.自动获取带标记目标语语料,并直接形成译文消歧模型,提出利用该模型进行译文消歧的方法。在此基础上,提出了等价伪译词概念以及等价伪译词的构造方法,并以此实现无指导的译文消歧。最后在国际语义评测数据集Senseval-2 ELS上进行了实验与比较;2.通过对双语语料库间接关联的观察,提出利用双语词汇间接关联度的完全无指导译文消歧方法。在计算间接关联度的过程中充分利用了Web资源,设计了Web的词汇间接关联度（WebIA）的计算方法,在消歧过程中利用了三种不同的决策方法进行决策。随后,针对基于间接关联方法的不足,本文将整个Web视为语义词典,直接利用Web进行双语词汇语义相关度（WBR）的定义分析以及计算。经过对WBR方法在一个经改造处理的标准语义相关度测试集上的比较实验,证明该方法可行后,设计了基于WBR的完全无指导译文消歧方法,并在同一个国际标准语义评测数据集Semeval2007上的task5与基于WebIA方法做了详细的对比实验;3.通过对歧义词同义词集合内词汇语句序列的观察,提出了一种基于Ngram语言模型以及Web挖掘的无指导译文消歧方法。该方法认为歧义词不同词义所对应的N-gram语言模型模式不同,且利用的是语言模型知识而非语义知识。随后在同一个标准集上的对比评测表明,该方法取得了极为优异的性能。性能超过了该任务可比较最好无指导系统TorMD12.8%（Pmar值）,最后,还进行了基于语言模型的方法与基于语义模型的方法的详细比较及性能上限的讨论;4.研究了利用WordNet、HowNet以及大规模双语平行语料库自动生成面向译文消歧的的双语词典的方法。该方法充分利用大规模平行语料库内丰富的词汇对齐知识以及各项统计信息,利用WordNet及HowNet语义资源的相似度计算,形成了一部同时带有双语语义信息及语料库统计信息的词典。综上所述,本文基本上给出了面向知识自动获取的无指导译文消歧的一整套解决方案,特别是其中基于Web的各种方法,为自然语言处理中的难题之一——译文/词义消歧,在基于Web搜索的研究思路上进行了初步探索。

论文目录

摘要

Abstract

第1章绪论

1.1 本文研究的背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 相关研究综述

1.2.1 有指导的消歧方法

1.2.2 无指导的消歧方法

1.2.3 半指导的消歧方法

1.2.4 国内相关研究

1.2.5 统计译文消歧研究的关键问题

1.3 领域相关国际评测会议

1.4 本文研究课题来源及主要研究内容

1.4.1 课题来源

1.4.2 主要研究内容

1.4.3 论文结构

第2章基于自动获取目标语带标记语料的译文消歧

2.1 引言

2.2 自动获取目标语语义实例

2.3 基于目标语语义分类的统计消歧模型

2.3.1 消歧框架

2.3.2 贝叶斯统计分类模型

2.3.3 实验与讨论分析

2.3.4 改进实验与讨论

2.4 基于等价伪译词的无指导译文消歧模型

2.4.1 相关概念

2.4.2 等价伪译词基本思想

2.4.3 利用等价伪译词进行无指导译文消歧

2.5 本章小结

第3章挖掘Web 双语词汇语义关系的译文消歧

3.1 引言

3.2 词汇关联度的计算

3.3 基于间接关联的译文消歧

3.3.1 间接关联

3.3.2 基本假设

3.3.3 双语间接Web 关联度的计算

IA 进行译文消歧'>3.3.4 利用Web_IA 进行译文消歧

3.3.5 实验与讨论分析

3.4 双语相关度方法：Web 作为语义词典

3.4.1 Web 可视为单语语义词典

3.4.2 扩展至双语范畴

3.4.3 利用Web 挖掘WBR

3.4.4 利用WBR 进行无指导译文消歧

3.4.5 实验

3.5 本章小结

第4章基于N-gram 语言模型的译文消歧

4.1 引言

4.2 统计语言模型

4.2.1 统计语言模型定义

4.2.2 标准N-gram 语言模型

4.2.3 词类N-gram 语言模型

4.3 基于N-gram 的译文消歧模型

4.3.1 基本假设

4.3.2 利用语言模型进行译文消歧

4.3.3 对N-gram 语言序列概率的统计计算

4.3.4 具体消歧流程

4.4 实验

4.4.1 评测语料及Baseline

4.4.2 利用知网形成评测歧义词的同义词集合

4.4.3 实验与讨论分析

4.5 语义模型方法与语言模型方法的比较

4.5.1 利用语义相关的消歧对比模型

4.5.2 实验及讨论

4.5.3 性能上限

4.5.4 对各方法在知识获取及利用上的比较

4.6 本章小结

第5章面向译文消歧的双语语义词典自动构建

5.1 引言

5.2 现有词典资源及相关研究

5.2.1 现有词典资源

5.2.2 相关研究

5.3 基于HowNet 及WordNet 的词语相似度计算

5.3.1 HowNet

5.3.2 基于HowNet 的词语相似度计算

5.3.3 WordNet

5.3.4 基于WordNet 的词语相似度计算

5.4 双语语义词典自动构建

5.4.1 大规模英汉双语平行语料库的词对齐及统计

5.4.2 双语语义词典自动构建

5.4.3 词典规模及讨论

5.5 本章小节

结论

参考文献

附录

攻读博士学位期间发表的论文

致谢

个人简历

基于知识自动获取的无指导译文消歧方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢