Print

一种优化的顺序IB文本聚类算法

论文摘要

随着网络信息的飞速增长,对于文本聚类技术的研究显得更为重要。由于文本数据高维性和稀疏性,传统的文本聚类算法并不能让人满意。IB方法是基于信息论的数据分析方法,该方法通过信息压缩与信息保存之间的平衡处理,有效地解决了精度和效率之间的平衡问题。IB方法的性质决定其适合解决文本聚类问题。在基于IB理论的算法中,sIB是较好的算法,但仍存在运行效率低、优化不充分等问题。本文针对sIB算法在文本聚类问题上存在的问题:易陷入局部优解、效率较低,基于模拟退火方法,提出一种优化的顺序文本聚类算法SA-isIB。该算法根据一个合理的退火序列,从基本sIB算法产生的初始聚类结果中随机选取一定比例的文本,对其类标记进行随机修改并重新对解进行优化,在经过退火过程后,SA-isIB能够得到比sIB算法精度更高的文本聚类结果。在研究IB的公共文本数据集上的实验结果表明:与sIB算法相比,SA-isIB不仅能有效提高文本聚类的精度,还具有较高的运行效率;并通过实验可知,随着优化次数的增加,SA-isIB的聚类精度和运行效率优势更加显著,且SA-isIB的精度提高幅度逐渐减小,这证明算法是收敛的。由于IB方法已经成功应用于许多领域,SA-isIB算法亦可以应用到其他实际问题中,该算法的研究具有广泛的实际意义。

论文目录

  • 内容摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 本文的工作
  • 1.3 本文内容与结构
  • 第二章 相关知识
  • 2.1 相关概念
  • 2.2 率失真理论
  • 2.3 IB理论
  • 2.4 IB算法
  • 第三章 一种优化的顺序 IB文本聚类算法
  • 3.1 sIB算法
  • 3.2 模拟退火算法
  • 3.3 SA-isIB算法以及分析
  • 第四章 实验
  • 4.1 对比实验
  • 4.2 结论
  • 第五章 总结及展望
  • 致谢
  • 参考文献
  • 附录:攻读硕士学位期间发表的论文
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/87c7dc7aad94d11d8d88a558.html