论文摘要
背景数据挖掘是综合利用了统计学、数据库和人工智能技术,从海量数据中提取知识和信息的一门技术。据报导,在我国生物医学中仅有不足10%的数据用来分析。与此同时,在生物医学数据资源中数据挖掘方法学研究是相对匮乏和滞后的。当前,数据挖掘已成为一个具有迫切现实需要且很有前途的热点研究领域。随着生物医学数据量的急剧增涨及其数据的特殊性,需要加大数据挖掘的方法学研究。在生物医学领域,分类方法应用非常广泛,可应用于影像学的图像分类处理;病理、检验、肿瘤等学科进行辅助诊断和识别;基因芯片、蛋白质芯片等微阵列数据分子生物学技术诊断;中医症侯特征分类;人寿保险;预测和自动控制等方面。因此,如何利用分类分析从大量数据中智能地、自动地提取出有价值的知识和信息的研究,具有十分重要的现实意义和广泛的应用前景。目的应用Monte Carlo方法比较数据挖掘中分类分析的八种方法,探讨不同分类方法的特点及在特定数据条件下的优势与不足,据此提出数据挖掘中分类分析的策略,为数据挖掘的实际应用提供依据。方法选择八种分类方法,即判别分析中的线性判别(Linner DiscriminantAnalysis,LDA)、二次判别(Quadratic Discriminant Analysis,QDA)、K-最近邻法(K-Nearest Neighbors,KNN):logistic回归;决策树中的CHAID(Chi-squareAutomatic Interaction Detector,CHAID)、C4.5、CART(Classification and RegressionTrees,CART)及BP神经网络(Back Propagation Neural Net-Work,BPNN)。采用Monte Carlo模拟研究对前述八种方法进行比较。所有模拟数据的目标变量设置为二分类,预测变量数目设置为3。考虑7个可能影响分类结果的因素,依次为:①预测变量的分布类型;②样本量大小;③组间协方差的比率;④组间样本量的比例;⑤两组间的效应量大小:⑥变量间的多重共线性;⑦先验概率。预测变量的分布类型考虑4种情况,即①多元正态分布;②多元偏态分布(本研究设置总体偏度系数f1=2.0、峰度系数为γ2=7.0);③混合型分布,即X1为正态分布变量,X2为偏态分布(总体偏度系数γ1=2.0、峰度系数γ2=7.0),X3为二分类计数属性变量;④所有预测变量均为二分类计数属性变量。本研究中两组样本量之和分别设置为60、100和400。组间样本量比例设置为50∶50、25∶75与10∶90。组间协方差比率设置为1∶1、1∶4及1∶8。组间效应量大小设置为0.2、0.5及0.8。在模拟中对三个预测变量总体间的相关系数ρ均设置为0.3。对于多重共线性的探讨,设置X1与X2总体间的相关系数ρ分别为0.6、0.9,与X3的相关关系不变。初步模拟时先验概率均设置为先验概率与样本量比例相等,而后设置组间先验概率相等(0.5∶0.5)以及先验概率为0.25∶0.75作为对比。方法间性能评估所用指标为总的错判率、灵敏度、特异度及ROC曲线下面积。对各种条件下数据模式进行2次随机抽样,一个样本作为训练集构造模型,另一个作为测试集验证模型。而后重复上述操作1000次,计算测试集数据错判率、ROC曲线下的面积、灵敏度及特异度的均值用以评价模型性能。结果1不同数据分布类型①多元正态分布,组间协方差相等时,LDA最优,其次为logistic回归,决策树法较差。相对而言,参数方法较之非参数方法要优。当数据为正态分布,组间协方差不等时,QDA最优,次之为非参数法,LDA与logistic回归较差。②多元偏态分布,组间协方差相等时,决策树及BP神经网络较优,LDA、QDA、logistic较差。偏态分布,组间协方差不等条件下,决策树法、KNN及QDA较优,LDA与logistic回归较差。③混合分布,组间协方差相等时,决策树及logistic回归较优,三种判别分析较差。组间协方差不等条件下,决策树法较优,LDA与logistic回归较差。④当数据为分类分布时,决策树与logistic回归较优,三种判别分析及BP神经网络较差。2协方差对分类的影响组间协方差不等,对于参数方法影响较大,尤其是QDA及logistic分析。较大协方差组错判率大,较小协方差组错判率小,而且协方差比例越不均衡,这一趋势愈为明显。以正态分布为例,当协方差为1∶4时,两组错判率比值为1.14~2.30;在协方差为1∶8时,两组错判率比值为1.10~3.80,KNN、BP Neural表现更为明显。3样本量及样本量比例对分类的影响当诸如数据分布类型、效应量、协方差不变时,随着样本量的增大,错判率减少,同时ROC曲线下面积增大。以正态分布协方差相等条件为例,样本量增大,错判率减小2%~11%,最为敏感的方法为BP神经网络,最不敏感的方法为KNN。样本量对分类效果的影响不如协方差影响大。样本量比例的不均衡对错判率的影响较大,以先验概率相等,正态分布、协方差相等条件下模拟结果为例,样本量大组(larger)错判率低,样本量小组(smaller)错判率大。如样本量比例10∶90条件,larger组下降了10%~98%,smaller组增大了17%~83%。下降的幅度高于增大的幅度,即使总的错判率减小,是以牺牲灵敏度为代价。4效应量对分类的影响当数据分布类型、组间协方差,样本量一定的条件下,效应量越大,错判率减少,同时ROC曲线下面积增大。以正态分布,等协方差,等样本量条件的模拟结果为例,各方法都有不同程度的改变,当效应量由0.2增大为0.8时,错判率减小了30%~55%。LDA及logistic回归尤为明显。效应量对错判率的影响较大。5共线性的影响随着共线性程度的增强,错判率增大,ROC曲线下面积减小。相关系数由0.6增至为0.9时,错判率增加幅度并不大。以正态分布、等样本量比例及协方差比率为1:4条件为例,当相关系数由0.3增至0.9时,错判率增大了1.36%~9.44%。出现这样的结果,估计在条件设置时仅设置了X2、X3有较强相关性有关。6先验概率的影响先验概率对错判率的影响很大,以正态分布为例,当样本量比例相等,先验概率为1:3,较大概率组错判率显著减小,降低为先验概率1:1条件的1.48~8.57倍。而较小概率组错判率增大,与先验概率1:1条件相比,增大为1.35~2.94倍。当先验概率设置为与样本量比例相等时,较之先验概率不等但样本量比例相等条件,又加剧了前述趋势。此条件下,较大概率组错判率降低为2.15~8.90倍,较小概率组错判率增大为1.59~2.95倍。显著降低了灵敏度。7实证分析依模拟结果为理论指导,我们将分类方法应用于三个实际医学资料。其一,对心肌梗塞数据建立了二次判别分类模型。其二,联合应用logistic回归与BP神经网络对脂肪肝数据构建了分类模型。最后,又将CART法应用于糖尿病数据探索其影响因素并建立了分类模型。结果表明,各模型与数据吻合较好,可应用于医学实际。结论在所研究的八种分类方法中,每种方法或多种方法的组合均在特定数据条件下体现出各自优势,因此可依据本研究的结果制定分析策略。首先,对数据进行预处理,即数据清洗、数据集成、数据变换和数据归约。第二,进行分类分析时关注数据的分布类型及其协方差的情况,而后进行方法的选择。当数据为多元正态分布,组间协方差相等时,可选择LDA及logistic回归。组间协方差不等时,可选择QDA。偏态分布,组间协方差相等时,可选择决策树及BP神经网络。组间协方差不等时,可选择决策树法、KNN和QDA。当数据为混合分布,组间协方差相等时,决策树及logistic较优,组间协方差不等时,决策树法较优。当数据为分类分布时,可选择决策树与logistic回归。
论文目录
相关论文文献
- [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
- [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
- [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
- [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
- [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
- [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
- [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
- [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
- [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
- [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
- [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
- [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
- [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
- [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
- [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
- [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
- [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
- [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
- [19].浅析数据挖掘[J]. 内江科技 2020(06)
- [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
- [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
- [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
- [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
- [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
- [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
- [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
- [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
- [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
- [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
- [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)
标签:分类论文; 蒙特卡罗模拟论文; 判别分析论文; 回归论文; 决策树论文; 神经网络论文; 多重共线性论文; 先验概率论文;