论文摘要
数据挖掘是信息技术自然演化的结果,是从大量数据中提取或“挖掘”未知的、有价值的模式或规律等知识的复杂过程。其中,对数据进行分类是数据挖掘领域研究的重要课题。贝叶斯方法由于具有坚实的数学理论基础以及综合先验信息和数据样本信息的能力,而被广泛研究与应用。本文重点研究了基于贝叶斯方法的数据分类算法,主要工作和成果表现在以下两个方面:(1)针对无线传感器网络事件区域检测问题,提出分布式加权分类容错检测的思想:考虑“邻域的邻域”的容错范围,首先通过邻域节点与其周围节点的信息交换,对邻域节点的状态值进行估计,然后采用加权方法对邻域节点的估计状态值进行加权综合,通过贝叶斯方法对加权的阈值进行推导,完成对中心节点的错误检测和分类处理。针对传感器节点规则排列和非规则排列两种情况,分别建立相应的无线传感器网络事件区域容错检测模型,对规则排列的模型提出基于固定权重的加权分类容错检测算法,而对非规则排列的模型,则提出基于距离加权的分类容错检测算法。实验结果表明,这两种算法均具有较高的错误检测精度,且算法运行时整个网络所消耗的能量适中。(2)多类标数据中的样本可能属于一个或多个类标,因此其分类问题较单类标分类更为复杂。本文提出一种新的多类标学习算法,首先针对多类标数据的特征属性维数高的特点,采用LLE算法对多类标数据的特征属性进行降维,提取能较完整描述数据的一组低维特征属性集;然后将多类标样本集按所属的类标进行划分,并采用贝叶斯分类模型来学习各组样本集的分类特性;根据各个分类模型的判定类标,综合得到多类标样本的最终类标集。将该算法分别应用到自然场景图像和基因数据的多类标分类学习中,实验结果表明,该算法针对不同的多类标数据集均能取得很好的分类效果,且相比于其他多类标算法有更高的性能。