论文摘要
在许多实际应用领域中,我们面临的往往是多变量(特征)大样本数据的分析和处理问题,即高维数据的分析和处理问题。这类问题的共同特征之一是,众多的变量(特征)提供了在一定程度上有所重叠的信息,使得人们很难抓住主要信息。因此,人们希望在对数据进行定量分析的过程中,能够事先进行高维数据的降维或特征提取,以便用维数较少且互不相关的新变量来反映原变量所提供的绝大部分信息。主成分分析便是适应这一要求的理想工具。然而,虽然主成分分析是一种成熟的数据降维或特征提取的方法,对于适合的数据集可以达到非常理想的降维或特征提取的效果,但其基本思想是通过线性变换来构造原变量的一系列线性组合,各个主成分反映的只是原始数据中变量之间的线性相关性。对于给定的数据集,如果变量(特征)之间存在的是非线性关系,或者给定的数据是非数值型数据,那么主成分分析的效果就会大打折扣,甚至无法操作。模糊集理论是为处理现实世界中的含糊或模糊现象而提出的一种数学方法,发展至今,也为非线性问题提供了一些行之有效的处理手段。本文选择变量之间具有非线性相关性的数据降维(非线性特征提取)和区间值数据降维两个问题,借助模糊集理论中的有关思想,进行了初步的探讨。针对非线性特征提取问题,本文提出了一个基于模糊相似测度的主成分分析算法。这个算法利用模糊相似测度矩阵代替主成分分析算法中的协方差矩阵,来提取具有非线性相关性的数据集之中的主成分,从而使得这些新变量所提供的信息比经典的主成分分析算法所提供的信息更为充分。针对以模糊数或区间值数据描述的数据集的特征提取问题,本文提出了一个简便易行的区间值数据的主成分分析算法。这个算法借鉴成熟的区间值数据模糊聚类分析的方法和比较简便的中点半径主成分分析法,既综合考虑了区间值数据的中值和半径提供的信息,又具有计算简便的优点。为了验证本文提出的两个算法的可行性和有效性,我们还借助模糊聚类分析方法,对两个真实数据集进行了相应的实验对比,以期实现从思想描述到算法设计再到实例验证的完整研究过程。