基于语义分析树核的句子相似度计算

论文摘要

句子相似度计算在自然语言处理领域的各个系统中具有非常广泛的应用,如:问答系统、自动文摘系统、信息检索系统以及基于实例机器翻译系统。因此长期以来,句子相似度计算问题,一直为人们所热衷。本文对相似度计算的各个层次进行了论述,重点论述了句子相似度计算。在研究汉语句子相似度的过程中,认为一个句子信息的完整表达,不但依赖于组成句子的词汇,而且还依赖于词汇之间的关系。因此,提出语义分析树核的相似度计算方法,对汉语句子的句法结构、词语语义、词形三个特征进行了研究,在使用这三个特征在计算句子相似度时各有侧重,互为补充。首先,将树核应用于汉语句法结构相似度计算。对于汉语句子的嵌套结构,最直观的表示形式是树状结构,因其更能体现句子结构信息。此外,在比较例句和候选句时,两种结构的相似度不仅体现在单个分支的句法结构,也体现在句子的整体结构上,使用树核能精确计算两个句子的句法结构相似度。其次,研究了句子的词语语义相似度计算方法。利用《同义词词林》提供的丰富语义信息,提取两个汉语句子中的关键词,并考虑词性对词语相似度的影响,去除句子中的冗余信息,计算关键词之间的词语语义相似度。再次,研究了两个句子形态上的相似度,以两个句子中所含相同关键词的个数占两个句子中的总关键词的个数来衡量,即词形相似度。最后,使用多特征融合的方法融合三个特征。句法特征、词语语义特征、词形特征分别反映了句子的结构、语义、表层词语方面的信息,通过设定各个特征的权值来调节它们对句子相似度计算的贡献。实验测试集为6000个句子,其中的5000句为噪音集,另外的1000句通过手工获得,构成标准集。在此测试集上使用本文所使用的方法,获得91.3%的查准率。

论文目录

摘要

Abstract

1 绪论

1.1 研究背景

1.2 相似度研究意义

1.3 相似度研究现状

1.3.1 词语相似度计算的研究

1.3.2 组块相似度计算的研究

1.3.3 句子相似度计算的研究

1.3.4 文本相似度计算的研究

1.4 本文的工作

2 句子的相似度计算

2.1 句子相似度计算的定义与应用

2.2 句子相似度计算方法研究

2.2.1 基于相同词汇的句子相似度计算方法

2.2.2 基于词语语义的句子相似度计算方法

2.2.3 基于向量空间的句子相似度计算方法

2.2.4 结合句子结构信息的相似度计算方法

2.2.5 多层次多特征融合的句子相似度计算方法

3 相似度计算算法

3.1 相似度理论

3.2 基于语义分析树核的句子相似度计算

3.2.1 定义及基本思想

3.2.2 核方法

3.2.3 树核算法

3.2.4 词语语义相似度计算

3.2.5 词形相似度计算

3.2.6 特征加权计算

3.2.7 相似句子查找

3.3 基于语义依存的句子相似度计算

3.3.1 句子依存结构的建立

3.3.2 语义消岐

3.3.3 依存相似度计算算法

4 实验及结果分析

4.1 关于测试集

4.2 实验方法

4.3 实验对比结果

4.4 实验结果分析

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

基于语义分析树核的句子相似度计算

论文摘要

论文目录

相关论文文献

猜你喜欢