论文摘要
Internet的迅速发展,使得Web成为人们获取信息的重要手段。如何帮助用户从Web这样海量的、动态的、半结构化的分布式环境中发现潜在有用的知识已成为信息技术领域的热点问题。Web数据挖掘就是为解决这一问题而产生的研究领域,研究范围涉及关联分析、分类分析、聚类分析、特征分析、模式序列分析、趋势分析等。其中聚类分析作为数据挖掘的一种强有力的分析工具,得到了人们的广泛关注,近来不断有新的聚类分析算法出现。计算智能作为智能信息科学发展最有生命活力的一个研究方向,正受到人们的强烈关注。它从模拟自然界生物体系和人类智能现象发展而来,用计算机模拟和再现人类的某些智能行为。计算智能包含人工神经网络、模糊逻辑和进化计算三个主要方面,它已在医疗诊断、图象处理、模式识别、计算生物学、财经分析、Web分析等领域获得成功应用。为改善聚类分析算法的性能,本文对基于计算智能的聚类组合方法进行了较为系统的研究,提出了基于多蚁群聚类组合以及基于自适应谐振理论(ART)聚类组合两种新算法;并分析了聚类性能评价方法,提出基于有效性指数的蚁群聚类算法,它在评价性能的同时求得最佳聚类数目,并且减少孤立点。实验结果表明,本文提出的一系列有关聚类组合的新思想和新方法都取得了良好的效果,并对文档聚类有一定的指导意义。归纳起来,本文的研究工作和创新内容主要表现在以下几个方面:(1)改进用于聚类分析的传统蚁群算法。蚁群聚类算法首先将数据对象随机地投影到一个平面,然后每个蚂蚁随机地选择一个数据对象,根据该对象在局部邻域的相似性而得到的概率,决定蚂蚁是否“拾起”、“移动”或“放下”该对象,最后数据对象按其相似性而聚集。本文将蚂蚁运动速度由单一常数设计成几种不同类型,使之更加符合蚂蚁运动规律;采用Sigmoid函数作为概率转换函数,运算中只需调整一个参数,收敛速度更快;针对孤立点,通过参数的分时调整加快算法收敛。(2)提出蚁群聚类与蚁群优化结合的新算法。蚁群优化算法是模拟蚁群觅食的群体行为而提出的。如果把聚类中心看作是蚂蚁所要寻找的食物源,则数据聚类过程就看作是蚂蚁寻求最短路径过程。依据这一思想,本文提出基于蚁群聚类与蚁群优化结合的聚类算法,它先由改进的单蚁群聚类算法进行聚类,生成聚类中心,再由基于蚁群转移概率的K-means算法进行二次优化。两种蚁群算法巧妙结合,可以改善聚类性能。(3)提出基于聚类有效性指数的蚁群聚类算法,该算法能求得最佳聚类数目,同时减少孤立点。聚类分析是一种无监督的学习,没有关于分类的先验知识,因此对它们的性能进行评价非常困难。常用的评价方法分为:外部评价法、内部评价法和相对评价法。外部评价法基于预先指定的结构,如F-measure法。内部评价法利用数据的固有性质进行评价。相对评价法用于评价相同算法的参数设置不同时的结果,主要有聚类密集性、聚类邻近性等指标。本文用基于外部评价法的F-measure和相对评价法的有效性指数评价聚类性能,同时利用基于多代表点的评价指数自动求得最佳聚类数目,并减少孤立点,克服大多数聚类算法需要事先输入聚类数目的难题。(4)提出基于超图的蚁群聚类组合算法和多蚁群并行聚类组合算法。聚类组合的思想借鉴于分类组合,其目的是从多个聚类结果中找到一个最佳的共识聚类。这是一个具有挑战性的工作,已被证明是一个NP完全型难题。一方面,聚类的模式是未标记的,由不同聚类算法得到的标记之间无明显的联系;另一方面,各种划分可能含有不同的聚类个数,这就涉及到标记对应问题。本文提出两种基于蚁群的聚类组合新算法:一种是考虑运动速度类型各异的多个蚁群,独立进行聚类分析,然后组合其聚类结果为超图,再用蚁群算法对超图进行二次划分。另一种考虑多蚁群和蚁王并行模型。两种算法均能明显改善聚类质量,且能处理文档数据集。(5)借鉴神经网络组合思想,提出基于自适应谐振理论的聚类组合算法。自适应谐振理论是一种能自组织地产生对环境识别编码的神经网络理论模型,是无教师的学习网络。本文提出一种基于自适应谐振理论的聚类组合方法,由任意聚类算法如蚁群算法得到的初步聚类结果,作为ART神经网络的输入,用ART模型进行学习,即可得到最终的目标聚类,其聚类性能得到提高。(6)建立Web文档主题发现与可视化系统从文档聚类结果中发现主题是一项极具挑战性的工作,本文采用在簇中重新计算词条权值,从而进行主题发现的方法。并以本文提出的各种聚类新算法为基础,开发出集Web文档下载、预处理、聚类分析、主题发现与聚类结果可视化为一体的实际应用系统。