论文摘要
随着网络信息的飞速增长,对于文本聚类技术的研究显得更为重要。由于文本数据高维性和稀疏性,传统的文本聚类算法并不能让人满意。IB方法是基于信息论的数据分析方法,该方法通过信息压缩与信息保存之间的平衡处理,有效地解决了精度和效率之间的平衡问题。IB方法的性质决定其适合解决文本聚类问题。在基于IB理论的算法中,sIB是较好的算法,但仍存在运行效率低、优化不充分等问题。本文针对sIB算法在文本聚类问题上存在的问题:易陷入局部优解、效率较低,基于模拟退火方法,提出一种优化的顺序文本聚类算法SA-isIB。该算法根据一个合理的退火序列,从基本sIB算法产生的初始聚类结果中随机选取一定比例的文本,对其类标记进行随机修改并重新对解进行优化,在经过退火过程后,SA-isIB能够得到比sIB算法精度更高的文本聚类结果。在研究IB的公共文本数据集上的实验结果表明:与sIB算法相比,SA-isIB不仅能有效提高文本聚类的精度,还具有较高的运行效率;并通过实验可知,随着优化次数的增加,SA-isIB的聚类精度和运行效率优势更加显著,且SA-isIB的精度提高幅度逐渐减小,这证明算法是收敛的。由于IB方法已经成功应用于许多领域,SA-isIB算法亦可以应用到其他实际问题中,该算法的研究具有广泛的实际意义。