论文摘要
中文文档内容相似度检测方法的研究一直是中文信息处理中的一项基础性技术,尤其在信息大爆炸的时代,无论是检测抄袭还是查找内容类似的文档都需要用到该项技术。近年来,随着中文文档处理技术以及相似度计算算法的发展,为相似度检测方法的研究提供了很好的基础。不过,至今仍然没有一个公认的算法能够达到令人满意的程度。本文研究的范围是中文文档内容的相似度检测。文档的相似度检测一直是一个难点,它和传统的针对单一对象的相似度检测不同。文档可以说是许多对象的集合,这些对象结合在一起就出现了很多不确定因素。对单个对象的相似度计算可以作为计算文档相似度的技术之一,但是不可能用来准确的计算中文文档的相似度。文章中首先对传统相似度计算的一些相关技术进行了综述。本文选用的文档是网上新闻。网上新闻取材简单,内容丰富,具有中文文档的典型特征。文中详细分析了中文文档的一些特性,通过分析特性找到了相似度检测的关键问题。文章中对这些问题进行了一一的分析,并在此基础上给出了问题的解决办法,给中文文档的相似度计算提供了一套方案。然后,文章中给出了相似度评价标准,这个标准是通过对大量相似度检测模型分析,依据中文文档特性得出的。在文章的最后,通过对30组各种相似级别的文章进行相似度计算,来验证本文的相似度检测模型,进一步论证了其有效性。本文在多种相似度计算方法的基础上,对文档各部分的特点进行深入的分析,综合运用这些技术,以达到提高相似度计算准确度的目的。文章最后大量的实验结果表明,该方法确实达到了检测文档内容相似度的目的。