论文摘要
随着互联网的迅速普及,人类迅速进入了信息时代,如何能从大量纷繁复杂的信息中找到需要的有用信息,就成为了人们研究的热点。在这些信息中,非结构文本数据是使用最多的,因此就有了非结构化文本近似匹配系统。非结构化文本的近似匹配对于信息的检索,文本分析和挖掘都有重要意义,因此一直是人们研究的重点。由于中文语法和语意的复杂性,使得中文的文本匹配变得异常困难,因此设计一个基于中文的高效、准确的非结构文本匹配系统具有广泛的现实意义。基于此本文研究和实现了一个中文非结构文本最佳近似匹配系统。本文作者的主要研究工作如下:(1)对国内外的研究现状进行了对比分析,针对中文非结构化文本匹配中所涉及的中文分词,文本特征表示与匹配,以及聚类算法等相关技术进行了研究分析和相关描述。(2)针对各种技术的优缺点,结合本文作者参与项目的实际需求,设计了相应的软件功能和系统结构。(3)根据本文设计的方案,提出了基于程序API和基于存储引擎两种实现方案,并对两种方案涉及的相关技术,实现原理和实现方法进行了详细介绍。(4)通过实验,进一步对本文所设计的两种方案的性能进行了比较分析。