论文摘要
主成分在降维和数据处理方面是一种广泛应用的方法。比较有趣的应用包括手写数字的识别(Hastie等,2001)和人脸数据的识别(Hancock,Burton和Bruce1996)。最近主成分还被应用基因表达数据处理(Alter,Brown和Botstein 2000)。Hastie等(2000)提出的“gene-shaving”就运用主成分方法来对基因数据进行聚类。尽管一般的主成分有很多优点,比如:各主成分是不相关的,并且各主成分的方差是依次减小的,这样就能保证提取的主成分的信息较少。但是在实际运用中主成分分析却存在着一些不足:这主要表现在一般主成分依赖于所有的原始变量,很难给出其实际解释。因此很多学者提出了改进的主成分分析方法,其中Zou等(2006)提出的稀疏主成分受到广泛的关注。本文基于Zou的想法系统研究了稀疏主成分分析并给出了在综合评价中的应用。本文的工作主要有四点:(1)通过实际数据和模拟数据系统比较了各种稀疏主成分分析方法,并指出了他们之间的一些差异;(2)在最小角回归算法的基础上给出了计算非负稀疏主成分的一种算法;(3)将各种稀疏主成分方法引入综合评价,通过实例说明了稀疏主成分在综合评价应用中的有效性;