论文摘要
聚类是数据挖掘中一种重要的挖掘任务和挖掘方法,它从数据库中寻找数据间的相似性,并依此对数据进行分类,使得不同类中的数据尽可能相异,而同一类中的数据尽可能相似,即“物以类聚”,从而优化大规模数据库的查询和发现数据中隐含的有用信息或知识,数据聚类在很多领域中有着广泛的应用。污水处理过程是一个包含许多复杂处理工艺的生化过程,长期稳定运行是较为困难的。目前国内的城市污水处理厂在日常运行过程中用于故障诊断的智能技术主要是基于知识的故障诊断专家系统。然而建立基于知识的系统的一个主要问题就是知识库的构建。知识库的构建主要依靠只为少数操作人员或专家所掌握的多年积累的经验知识,存在知识获取瓶颈的问题。污水处理厂在运行过程中,会产生大量的运行数据。聚类分析是一种无监督分类技术,可以很好地用来进行先验知识少的数据的分析。因此提出使用聚类分析技术分析污水处理历史数据,通过分析聚类结果,建立故障规则,用于补充城市污水处理故障诊断系统的知识库。本文对现有的聚类算法作了深入的研究,通过具体的分析后,提出了基于遗传算法和基于最近邻聚类的聚类方法。最后使用新提出的聚类算法对污水处理历史数据进行了聚类分析,并对污水处理中的故障规则的建立作了初步探讨。本文的主要研究内容如下:①介绍了聚类分析技术和遗传算法方面的基础知识。探讨了遗传算法常用的编码方式、遗传算子以及控制参数的选择。②对遗传算法与K-means算法相结合的混合聚类算法进行了研究,提出了改进的遗传聚类算法,来提高收敛速度并改善分类效果。③提出了一种两阶段聚类分析算法。算法的第一阶段为最近邻聚类算法,第一阶段后生成初始聚类簇。算法的第二阶段为遗传优化阶段,进行初始聚类簇的合并。聚类算法不需要事先指定聚类个数。将两阶段聚类算法在多个模拟数据集上进行聚类,并对实验结果进行了分析。在前面的基础上,提出了基于最近邻聚类的两阶段聚类框架,即可用于划分聚类又可用于层次聚类。④使用基于最近邻聚类算法和遗传优化算法的异常检测算法对污水处理历史数据进行了聚类分析,使用基于距离和的异常度量因子,筛选出样本集中最为异常的样本。结合专家的解释,对这些异常样本进行了分析。最后对污水处理中的故障规则的建立作了初步探讨。