基于模糊集理论的主成分分析方法研究

论文摘要

在许多实际应用领域中,我们面临的往往是多变量(特征)大样本数据的分析和处理问题,即高维数据的分析和处理问题。这类问题的共同特征之一是,众多的变量(特征)提供了在一定程度上有所重叠的信息,使得人们很难抓住主要信息。因此,人们希望在对数据进行定量分析的过程中,能够事先进行高维数据的降维或特征提取,以便用维数较少且互不相关的新变量来反映原变量所提供的绝大部分信息。主成分分析便是适应这一要求的理想工具。然而,虽然主成分分析是一种成熟的数据降维或特征提取的方法,对于适合的数据集可以达到非常理想的降维或特征提取的效果,但其基本思想是通过线性变换来构造原变量的一系列线性组合,各个主成分反映的只是原始数据中变量之间的线性相关性。对于给定的数据集,如果变量(特征)之间存在的是非线性关系,或者给定的数据是非数值型数据,那么主成分分析的效果就会大打折扣,甚至无法操作。模糊集理论是为处理现实世界中的含糊或模糊现象而提出的一种数学方法,发展至今,也为非线性问题提供了一些行之有效的处理手段。本文选择变量之间具有非线性相关性的数据降维(非线性特征提取)和区间值数据降维两个问题,借助模糊集理论中的有关思想,进行了初步的探讨。针对非线性特征提取问题,本文提出了一个基于模糊相似测度的主成分分析算法。这个算法利用模糊相似测度矩阵代替主成分分析算法中的协方差矩阵,来提取具有非线性相关性的数据集之中的主成分,从而使得这些新变量所提供的信息比经典的主成分分析算法所提供的信息更为充分。针对以模糊数或区间值数据描述的数据集的特征提取问题,本文提出了一个简便易行的区间值数据的主成分分析算法。这个算法借鉴成熟的区间值数据模糊聚类分析的方法和比较简便的中点半径主成分分析法,既综合考虑了区间值数据的中值和半径提供的信息,又具有计算简便的优点。为了验证本文提出的两个算法的可行性和有效性,我们还借助模糊聚类分析方法,对两个真实数据集进行了相应的实验对比,以期实现从思想描述到算法设计再到实例验证的完整研究过程。

论文目录

摘要

Abstract

引言

第1章主成分分析

1.1 主成分分析的基本思想

1.2 主成分分析方法概述

1.3 主成分分析的应用

第2章模糊聚类分析

2.1 聚类分析的意义与基本思想

2.2 模糊聚类分析

2.3 模糊c均值聚类算法

2.4 模糊聚类中的样本相似性度量

第3章基于模糊相似测度的主成分分析

3.1 基于模糊相似测度的主成分分析方法的背景思想

3.2 基于模糊相似测度的主成分分析的基本思想和算法描述

3.3 基于模糊相似测度的主成分分析的应用实例

第4章区间值数据的主成分分析

4.1 区间值数据与模糊数

4.2 区间值数据主成分分析的基本思想和算法描述

4.3 区间值数据主成分分析的应用实例

第5章结论

5.1 本文研究的主要工作

5.2 有待进一步研究的工作

参考文献

附录

A 55个国家或地区的赛跑记录

B 基于模糊相似测度的主成分分析结果

攻读学位期间公开发表论文

致谢

研究生履历

基于模糊集理论的主成分分析方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢