论文摘要
句子相似度计算在自然语言处理领域的各个系统中具有非常广泛的应用,如:问答系统、自动文摘系统、信息检索系统以及基于实例机器翻译系统。因此长期以来,句子相似度计算问题,一直为人们所热衷。本文对相似度计算的各个层次进行了论述,重点论述了句子相似度计算。在研究汉语句子相似度的过程中,认为一个句子信息的完整表达,不但依赖于组成句子的词汇,而且还依赖于词汇之间的关系。因此,提出语义分析树核的相似度计算方法,对汉语句子的句法结构、词语语义、词形三个特征进行了研究,在使用这三个特征在计算句子相似度时各有侧重,互为补充。首先,将树核应用于汉语句法结构相似度计算。对于汉语句子的嵌套结构,最直观的表示形式是树状结构,因其更能体现句子结构信息。此外,在比较例句和候选句时,两种结构的相似度不仅体现在单个分支的句法结构,也体现在句子的整体结构上,使用树核能精确计算两个句子的句法结构相似度。其次,研究了句子的词语语义相似度计算方法。利用《同义词词林》提供的丰富语义信息,提取两个汉语句子中的关键词,并考虑词性对词语相似度的影响,去除句子中的冗余信息,计算关键词之间的词语语义相似度。再次,研究了两个句子形态上的相似度,以两个句子中所含相同关键词的个数占两个句子中的总关键词的个数来衡量,即词形相似度。最后,使用多特征融合的方法融合三个特征。句法特征、词语语义特征、词形特征分别反映了句子的结构、语义、表层词语方面的信息,通过设定各个特征的权值来调节它们对句子相似度计算的贡献。实验测试集为6000个句子,其中的5000句为噪音集,另外的1000句通过手工获得,构成标准集。在此测试集上使用本文所使用的方法,获得91.3%的查准率。