论文摘要
计算机存储和数据库管理技术的飞速发展,收集和管理海量数据成为可能;而计算机和数据库管理技术的普及则降低了与之相关的成本,使之成为现实。面对存储量日益增大的各类数据集,为真正满足决策信息获取的需求,从海量数据中挖掘或提取有用信息、规则、模式的各类数据挖掘方法和技术被提出。不相关或冗余噪声数据的存在,以及出于简约建模的考虑,属性选择相关问题也进入人们的视野。属性选择作为数据挖掘的一个数据预处理步骤,或归纳学习算法的一部分,是海量数据建模的一个重要环节,与属性约简一同构成数据挖掘的两种属性变量处理技术。然而,不同于属性约简的通过属性空间投影减少输入属性,属性选择以属性变量与目标属性属性间相关与冗余关系测度为基础,根据事先设定的属性评估准则(或函数)来选择数据挖掘模型所需的输入属性。属性选择结果存在原始属性度量维度的直接缩减,而属性约简则不然,其输出结果是原始属性测度的线性或非线性组合,不存在原始属性度量维度的减少。由于其决定着构建模型的输入属性,所以属性选择方法的性能直接影响着数据挖掘任务算法的输出结果。但是,属性选择方法的性能直接受属性间相关与冗余关系测度方式、属性空间搜索策略和属性评价函数(方式)等三个因素的影响,三因素的不同组合形成不同的属性选择方法,可以获得不同的性能输出。故从属性间关系的测度、属性空间搜索策略和属性评估方法等角度研究属性选择方法对数据挖掘输出性能影响有其直接的理论价值;而数据挖掘研究的应用导向型特点则决定了其不缺乏现实意义。属性关系测度、属性空间搜索和属性评价准则共同构成属性选择的三位一体过程,是属性选择问题的三个核心。属性关系测度的好坏直接表现为由测度结果所表述的属性间关系的真实与否,是属性评估与选择的基础,对属性选择输出结果有着直接的影响;属性评价准则,作为属性选择的基准,和属性测度一样,均对属性输出结果产生直接的影响;属性空间搜索决定着最优属性或属性子集产生的方式,对属性选择算法的运行时间和空间耗费起决定性影响。本文主要从第一方面问题——不同属性间相关或冗余关系测度对属性选择方法性能影响——着手讨论基于统计相关的属性选择算法对数据挖掘任务输出的影响。本文的研究内容分为六章。第1章引言。首先陈述数据挖掘产生的时代背景和数据挖掘的意义与作用;然后,就数据集中不相关、冗余以及噪声数据的存在,阐述属性选择的必要性和意义,概述属性选择问题研究的发展和其基本特点,并提出本文所要研究的问题。而后,指出文章所要完成的工作,也就是本文可能的创新之处。最后,对文章结构安排进行了阐述。第2章数据挖掘理论评述。本章分为四节,第一节是对数据挖掘的概念和定义的回顾与述评,主要介绍了数据挖掘发展的基本历程,数据挖掘的定义和基本概念,以及数据挖掘知识发现过程等相关内容。第二节是对数据挖掘的任务和功能的综述,主要介绍了数据挖掘的数据描述与建模预测两大基本任务,以及基于两大基本任务的5类基本职能:类/概念描述(Class/concept description)、频繁模式分析(Frequent pattern analysis)、聚类(Clustering)、分类(Classification)和预测(Prediction)、演变分析(Evolution analysis)。第三节是对数据挖掘方法的介绍,主要介绍了本文实证研究中将要采用的5类预测建模方法:线性回归(LR)、朴素贝叶斯分类(NB)、分类树归纳学习(C4.5)、K近邻(KNN)和神经网络RBF,以及其基本算法。其次,对属性选择相关问题进行了简要概述,包括属性关系的测度、属性空间搜索策略、属性选择流程,以及基于不同测度的属性选择方法。第3章属性选择理论评述。本章分为六节介绍属性选择问题。第一节对属性选择问题进行概述,主要介绍了属性选择的作用和意义,属性选择所需考虑的三个方面,以及属性选择的应用领域。第二节是对属性选择中属性间关系测度的述评,主要介绍了距离测度(Distance measures)、信息测度(Information measures)、相依性测度(Dependence measures)、分类误差率测度[3]和一致性测度[31]等常用测度,并在此基础上对上述属性间关系测度方法进行了简要评述;最后,对基于属性关系测度的属性评价准则进行了简要说明。第三节介绍了属性选择算法时间和空间耗费有重要影响的属性搜索策略。第四节,对两组概念进行了简要辨析,首先介绍了属性选择与属性约简的异同;而后则对属性选择和模型选择的关系进行了讨论,并指出属性选择实质也是一种模型选择。第五节,介绍了属性选择的基本流程。最后,在第六节简要介绍了属性选择的两种基本方式:过滤式和绑定式属性选择。第4章基于统计相关的属性选择。本章分三节对基于统计相关的属性选择进行了讨论。第一节,对统计相关进行基本设定,首先对Almuallim与Dietterich(1991)、John等(1997)、Bluma与Langley(1997)和Yu与Liu(2004)等从不同角度对属性“相关”和属性冗余的讨论和定义进行了回顾,并在此基础上提出了简单相关和条件相关的定义;接下来介绍了CFS算法中将用到的两类属性相关测度:对称不确定性(Symmetrical uncertainty)和Pearson相关,最后,引入适用于数据挖掘任务的V-M属性相关测度,并介绍了不同类型属性间相关关系的计算公式。第二节,首先介绍了Mark(1999,2000)基于统计复合检验理论所提出的属性评估函数Merit s,而后考虑属性间间接作用关系的存在,提出一个基于偏相关调整的属性选择评估函数Merit s’。第三节是对基于相关的属性选择方法的讨论,首先介绍了Mark(1999,2000)的属性选择方法CFS,随后,提出基于属性间V-M统计测度的属性选择算法SCFS(Statistical Correlation based Feature Selection),最后提出基于Merit s’测度的属性选择算法PCFS (Partial Correlation based Feature Selection)。第5章性能分析和评价。本章分四节分别对试验数据、试验方法、试验输出结果、性能分析评价和算法适用性分析进行了讨论。第一节,重点介绍试验数据的选择和试验方法的科学设计。第二节给出三种属性选择算法在79个数据集上的结果输出。第三节,对试验结果的分析评价,试验结果表明,文中所提出的属性选择方法SCFS及其改进PCFS在部分数据集中输出结果优于CFS,但就总体性能而言,要稍弱于CFS。为探究数据集的结构特征和属性选择算法表现之间是否存在直接的关系,文章在第四节以不同属性选择算法输出差异为选择项,数据集的特征为输入自变量建立logistic离散选择模型。模型结果表明,数据集的结构特征和属性选择性能表现之间的关系因挖掘任务模型的不同而有所不同。第6章结束语。本章在总结本文研究过程、主要研究结论的基础上,指出了本研究中所存在的不足,改进的可能以及以后的研究方向。本文的主要研究结论是,一方面,基于统计相关的属性选择算法SCFS和PCFS能够有效地完成数据挖掘建模任务中的属性选择任务。在大多数数据域中,算法在不明显降低数据挖掘任务输出的前提下,能有效减少不相关、冗余及噪声属性在数据挖掘任务中的输入,提升挖掘任务学习的效能;在部分数据域上,算法甚至能提高挖掘任务输出的性能。但其仍存在不足之处,表现在和CFS相比,在总体性能表现上仍显不足。但是其在部分数据集上的表现明显优于CFS,说明其也有可取之处。同时,基于不同属性选择算法输出结果和数据集结构特征的离散选择模型输出表明,在数据挖掘任务执行中不能盲目的选用属性选择方法,而应根据所研究数据集的具体特征和所要训练学习的数据挖掘任务来进行。本文的主要贡献和意义在于:1.从原始属性的统计关系测度入手,提出基于V-M测度的属性选择算法SCFS和PCFS,并通过性能试验验证了算法的可用性和有效性,在部分数据集上表现优于CFS;2.考虑属性间间接作用关系的存在,提出了基于偏相关调整的属性评估函数Merit s’,在探索属性间关系的测度上进行了有益的尝试;3.拓展了数据挖掘任务执行中可选择属性选择算法的范围;4.通过实证结果指出,属性选择应基于学习任务以及学习对象本身的数据结构特点进行,这对数据挖掘工作的开展具有较强的现实意义。