数据挖掘中分类分析的策略研究及其生物医学应用

数据挖掘中分类分析的策略研究及其生物医学应用

论文摘要

背景数据挖掘是综合利用了统计学、数据库和人工智能技术,从海量数据中提取知识和信息的一门技术。据报导,在我国生物医学中仅有不足10%的数据用来分析。与此同时,在生物医学数据资源中数据挖掘方法学研究是相对匮乏和滞后的。当前,数据挖掘已成为一个具有迫切现实需要且很有前途的热点研究领域。随着生物医学数据量的急剧增涨及其数据的特殊性,需要加大数据挖掘的方法学研究。在生物医学领域,分类方法应用非常广泛,可应用于影像学的图像分类处理;病理、检验、肿瘤等学科进行辅助诊断和识别;基因芯片、蛋白质芯片等微阵列数据分子生物学技术诊断;中医症侯特征分类;人寿保险;预测和自动控制等方面。因此,如何利用分类分析从大量数据中智能地、自动地提取出有价值的知识和信息的研究,具有十分重要的现实意义和广泛的应用前景。目的应用Monte Carlo方法比较数据挖掘中分类分析的八种方法,探讨不同分类方法的特点及在特定数据条件下的优势与不足,据此提出数据挖掘中分类分析的策略,为数据挖掘的实际应用提供依据。方法选择八种分类方法,即判别分析中的线性判别(Linner DiscriminantAnalysis,LDA)、二次判别(Quadratic Discriminant Analysis,QDA)、K-最近邻法(K-Nearest Neighbors,KNN):logistic回归;决策树中的CHAID(Chi-squareAutomatic Interaction Detector,CHAID)、C4.5、CART(Classification and RegressionTrees,CART)及BP神经网络(Back Propagation Neural Net-Work,BPNN)。采用Monte Carlo模拟研究对前述八种方法进行比较。所有模拟数据的目标变量设置为二分类,预测变量数目设置为3。考虑7个可能影响分类结果的因素,依次为:①预测变量的分布类型;②样本量大小;③组间协方差的比率;④组间样本量的比例;⑤两组间的效应量大小:⑥变量间的多重共线性;⑦先验概率。预测变量的分布类型考虑4种情况,即①多元正态分布;②多元偏态分布(本研究设置总体偏度系数f1=2.0、峰度系数为γ2=7.0);③混合型分布,即X1为正态分布变量,X2为偏态分布(总体偏度系数γ1=2.0、峰度系数γ2=7.0),X3为二分类计数属性变量;④所有预测变量均为二分类计数属性变量。本研究中两组样本量之和分别设置为60、100和400。组间样本量比例设置为50∶50、25∶75与10∶90。组间协方差比率设置为1∶1、1∶4及1∶8。组间效应量大小设置为0.2、0.5及0.8。在模拟中对三个预测变量总体间的相关系数ρ均设置为0.3。对于多重共线性的探讨,设置X1与X2总体间的相关系数ρ分别为0.6、0.9,与X3的相关关系不变。初步模拟时先验概率均设置为先验概率与样本量比例相等,而后设置组间先验概率相等(0.5∶0.5)以及先验概率为0.25∶0.75作为对比。方法间性能评估所用指标为总的错判率、灵敏度、特异度及ROC曲线下面积。对各种条件下数据模式进行2次随机抽样,一个样本作为训练集构造模型,另一个作为测试集验证模型。而后重复上述操作1000次,计算测试集数据错判率、ROC曲线下的面积、灵敏度及特异度的均值用以评价模型性能。结果1不同数据分布类型①多元正态分布,组间协方差相等时,LDA最优,其次为logistic回归,决策树法较差。相对而言,参数方法较之非参数方法要优。当数据为正态分布,组间协方差不等时,QDA最优,次之为非参数法,LDA与logistic回归较差。②多元偏态分布,组间协方差相等时,决策树及BP神经网络较优,LDA、QDA、logistic较差。偏态分布,组间协方差不等条件下,决策树法、KNN及QDA较优,LDA与logistic回归较差。③混合分布,组间协方差相等时,决策树及logistic回归较优,三种判别分析较差。组间协方差不等条件下,决策树法较优,LDA与logistic回归较差。④当数据为分类分布时,决策树与logistic回归较优,三种判别分析及BP神经网络较差。2协方差对分类的影响组间协方差不等,对于参数方法影响较大,尤其是QDA及logistic分析。较大协方差组错判率大,较小协方差组错判率小,而且协方差比例越不均衡,这一趋势愈为明显。以正态分布为例,当协方差为1∶4时,两组错判率比值为1.14~2.30;在协方差为1∶8时,两组错判率比值为1.10~3.80,KNN、BP Neural表现更为明显。3样本量及样本量比例对分类的影响当诸如数据分布类型、效应量、协方差不变时,随着样本量的增大,错判率减少,同时ROC曲线下面积增大。以正态分布协方差相等条件为例,样本量增大,错判率减小2%~11%,最为敏感的方法为BP神经网络,最不敏感的方法为KNN。样本量对分类效果的影响不如协方差影响大。样本量比例的不均衡对错判率的影响较大,以先验概率相等,正态分布、协方差相等条件下模拟结果为例,样本量大组(larger)错判率低,样本量小组(smaller)错判率大。如样本量比例10∶90条件,larger组下降了10%~98%,smaller组增大了17%~83%。下降的幅度高于增大的幅度,即使总的错判率减小,是以牺牲灵敏度为代价。4效应量对分类的影响当数据分布类型、组间协方差,样本量一定的条件下,效应量越大,错判率减少,同时ROC曲线下面积增大。以正态分布,等协方差,等样本量条件的模拟结果为例,各方法都有不同程度的改变,当效应量由0.2增大为0.8时,错判率减小了30%~55%。LDA及logistic回归尤为明显。效应量对错判率的影响较大。5共线性的影响随着共线性程度的增强,错判率增大,ROC曲线下面积减小。相关系数由0.6增至为0.9时,错判率增加幅度并不大。以正态分布、等样本量比例及协方差比率为1:4条件为例,当相关系数由0.3增至0.9时,错判率增大了1.36%~9.44%。出现这样的结果,估计在条件设置时仅设置了X2、X3有较强相关性有关。6先验概率的影响先验概率对错判率的影响很大,以正态分布为例,当样本量比例相等,先验概率为1:3,较大概率组错判率显著减小,降低为先验概率1:1条件的1.48~8.57倍。而较小概率组错判率增大,与先验概率1:1条件相比,增大为1.35~2.94倍。当先验概率设置为与样本量比例相等时,较之先验概率不等但样本量比例相等条件,又加剧了前述趋势。此条件下,较大概率组错判率降低为2.15~8.90倍,较小概率组错判率增大为1.59~2.95倍。显著降低了灵敏度。7实证分析依模拟结果为理论指导,我们将分类方法应用于三个实际医学资料。其一,对心肌梗塞数据建立了二次判别分类模型。其二,联合应用logistic回归与BP神经网络对脂肪肝数据构建了分类模型。最后,又将CART法应用于糖尿病数据探索其影响因素并建立了分类模型。结果表明,各模型与数据吻合较好,可应用于医学实际。结论在所研究的八种分类方法中,每种方法或多种方法的组合均在特定数据条件下体现出各自优势,因此可依据本研究的结果制定分析策略。首先,对数据进行预处理,即数据清洗、数据集成、数据变换和数据归约。第二,进行分类分析时关注数据的分布类型及其协方差的情况,而后进行方法的选择。当数据为多元正态分布,组间协方差相等时,可选择LDA及logistic回归。组间协方差不等时,可选择QDA。偏态分布,组间协方差相等时,可选择决策树及BP神经网络。组间协方差不等时,可选择决策树法、KNN和QDA。当数据为混合分布,组间协方差相等时,决策树及logistic较优,组间协方差不等时,决策树法较优。当数据为分类分布时,可选择决策树与logistic回归。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.2 数据挖掘在生物医学数据中的研究及应用现状
  • 1.3 生物医学海量数据的生成及其特殊性
  • 1.4 医学数据资源中数据挖掘的应用领域
  • 1.5 生物医学数据中数据挖掘的研究方法
  • 1.6 数据挖掘算法的研究工具-SAS Enterprise Miner
  • 1.7 本研究的主要内容
  • 1.8 参考文献
  • 第2章 八种分类方法简介及SAS程序实现
  • 2.1 Logistic回归分析简介
  • 2.2 Bayes线性判别分析简介
  • 2.3 二次判别分析简介
  • 2.4 K-近邻法简介
  • 2.5 决策树方法简介
  • 2.6 ID3算法简介
  • 2.7 C4.5算法简介
  • 2.8 CART算法简介
  • 2.9 CHAID法简介
  • 2.10 BP神经网络简介
  • 2.11 参考文献
  • 第3章 Monte Carlo模拟条件设置及模型的评价指标
  • 3.1 本研究模拟条件介绍
  • 3.2 多元分析的几个基本概念
  • 3.3 多元正态分布设置
  • 3.4 多元偏态分布设置
  • 3.5 混合分布设置
  • 3.6 变量为二分类变量条件设置
  • 3.7 先验概率设置
  • 3.8 变量间共线性设置
  • 3.9 分类模型的评价指标
  • 3.10 本研究设置条件下几种分布的概率密度图形
  • 3.11 参考文献
  • 第4章 模拟结果与讨论
  • 4.1 多元正态分布模拟结果
  • 4.2 多元偏态分布模拟结果
  • 4.3 混合分布模拟结果
  • 4.4 分类分布数据模拟结果
  • 4.5 先验概率相等模拟结果
  • 4.6 变量间有共线性模拟结果
  • 4.7 讨论
  • 4.8 参考文献
  • 第5章 实证分析
  • 5.1 实例一 判别分析应用
  • 5.2 实例二 logistic回归与神经网络联合应用
  • 5.3 实例三 决策树法应用
  • 5.4 参考文献
  • 第6章 特色创新及设想
  • 6.1 本文的特色和创新点
  • 6.2 本研究的不足之处
  • 6.3 今后的设想
  • 附录一 英(中)文索引
  • 附录二 学习期间的科研情况
  • 致谢
  • 相关论文文献

    • [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [19].浅析数据挖掘[J]. 内江科技 2020(06)
    • [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
    • [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    数据挖掘中分类分析的策略研究及其生物医学应用
    下载Doc文档

    猜你喜欢