词义消歧语料库自动获取方法研究

论文摘要

一词多义现象给计算机对自然语言的处理带来了许多困难,有不少自然语言理解领域的问题归根到底是解决词语歧义的问题。从人们最初注意到歧义的影响至今已经过去了60多个年头,在这段时间里,学术界提出了许多词义消歧的方法。随着计算机处理大规模文本能力的日益增强,采用有指导机器学习方法的词义消歧以其突出的高准确率逐渐成为了主流。不过,有指导方法依赖于足够的训练语料。而这些语料的人工标注费时费力,且难以保证一致性。由训练语料不足导致的数据稀疏问题限制了有指导方法的推广。于是,一些以自动获取训练语料为目的的研究因而展开,其中使用同义词扩展训练语料的方法用到的资源代价较低,可扩展性较好。但是,经过实验发现,用这种方法获取的语料噪声较大,偏置较高。为此,本文以解决如何有效自动获取训练语料的问题为着眼点,提出先扩展再验证的两阶段策略,通过验证过程消除扩展训练语料中的噪声。这里着重探讨基于语言模型和基于点互信息的两种方式对扩展语料质量的验证能力。为了后面的对比实验,文章首先实现了一个基于SVM的有指导词义消歧系统。在Semeval-2007英文采样歧义词语料上的对比实验表明了使用线性核函数的SVM性能最佳。接下来利用Senseval-3中文采样歧义词评测语料和Semeval-2007英文采样歧义词评测语料中目标歧义词的同义词,分别从互联网和生语料库上获取了词义消歧的候选扩展语料,然后分别使用语言模型和点互信息方法对这些候选进行过滤,最后应用这些扩展语料于有指导系统中。实验结果显示,这两种验证方法均具有一定的筛选能力,并使系统性能得到改善。在中文评测集上,语言模型验证方法使系统的准确率从62.00%提高到63.06%,在英文评测集上,点互信息验证方法使系统准确率从88.19%提高到88.46%。

论文目录

摘要

Abstract

第1章绪论

1.1 课题背景

1.2 词义消歧的发展

1.3 词义消歧的应用

1.4 词义消歧的基本方法

1.4.1 基于词典的词义消歧

1.4.2 基于有标注语料的词义消歧

1.4.3 基于无标注语料的词义消歧

1.5 本文的研究内容

第2章基于SVM的词义消歧方法研究

2.1 引言

2.2 基于SVM的词义消歧系统

2.2.1 问题定义

2.2.2 系统结构

2.2.3 支撑向量机的原理和实现

2.2.4 特征抽取

2.3 评测与实验结果

2.4 本章小结

第3章基于语言模型的词义消歧语料自动获取

3.1 引言

3.2 相关工作

3.3 语言模型验证

3.3.1 从互联网获取词义消歧语料

3.3.2 语言模型验证

3.4 评测的实验设置

3.4.1 语料

3.4.2 有指导词义消歧系统

3.4.3 语言模型的实现

3.5 实验结果

3.5.1 基于人工标注语料的系统

3.5.2 基于互联网语料的系统

3.5.3 基于语言模型验证的系统

3.6 本章小结

第4章基于点互信息的词义消歧语料自动获取

4.1 引言

4.2 相关工作

4.3 基于点互信息的验证

4.3.1 扩展语料的获取

4.3.2 点互信息

4.4 实验设置

4.4.1 实验数据

4.4.2 有指导词义消歧系统

4.4.3 点互信息验证的实现

4.5 实验结果

4.5.1 基于人工标注语料的系统

4.5.2 基于点互信息验证语料的系统

4.6 本章小结

结论

参考文献

攻读学位期间发表的学术论文

致谢

词义消歧语料库自动获取方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢