离散型随机变量的贝叶斯分类方法研究

离散型随机变量的贝叶斯分类方法研究

论文摘要

分类问题是统计研究的核心任务之一,在生物信息学、统计物理学、金融、工业制造、质量控制等领域有着广泛的应用。经过不懈地研究,研究者们提出了多种分类方法,如Fisher判别、Logistic回归、lasso、神经网络、SVM等等。虽然分类方法很多,但随着科学技术的飞速发展,人们在生产实践过程中遇到了很多前人未曾遇到的新问题,这些问题对统计学者提出了更高地挑战。例如,在生物信息学的研究中,研究者常常希望寻找出某种疾病与基因之间的关联,然后根据基因信息来预测是否患有疾病。但困难在于需要分析的基因数量远远大于已掌握信息的病人数量。将这一情况抽象为统计问题,即,对于高维度的离散型随机变量,在样本量远远小于变量数目的情况下,如何有效地对数据进行分类。高维数据,特别是样本量远远小于变量数目的情形并不鲜见。本论文着重研究了离散数据的分类问题,我同时考察了变量数目小于样本量以及变量数量大于样本量的情形。在研究过程中,我提出了两种新的贝叶斯分类方法:SPAN-2和STAN,并随后将其推广为GSPAN-2和GSTAN以解决交互作用的噪声变量对分类造成的影响。Yuan [2009]在BEAM(Zhang and Liu [2007])基础上提出的SPAN方法。针对SPAN方法的不足,我提出了改进的SPAN-2方法。新的SPAN-2方法采用了全新的MH抽样算法,避免了SPAN方法容易陷入局部极值点的问题,提高了MCMC方法的效率。在模拟数据分析中,SPAN-2比SPAN有更高的分类准确率。随后我创新地将BEAM对变量的分组和TAN(Friedmanetal.[1997])的树状结构结合,提出了新的STAN分类方法。在构建STAN分类器的过程中,我采用了MTM(multiple-try Metropolis)技术,而TAN则采用了穷举式搜索,因此,尽管STAN模型比TAN模型更复杂,但两者的计算复杂度却是相同的O(L2·N),其中L是变量数量,N是样本量。STAN将所有自变量分为三组。噪声变量被划归为第一组,而所有的信息变量又依据其彼此间的相关性被分为两组。直观上看,第二组自变量是独立影响分类变量的信息变量,而第三组自变量则是联合影响分类变量的信息变量。对于第三组自变量,我对它们彼此之间的联合作用方式(即相关性结构)通过一个贝叶斯网络来描述。这种对自变量的建模方式使得STAN同时实现了自变量的筛选和对信息变量交互作用的辨识。在随后的模拟数据和真实数据分析中,STAN展示出了不逊于其他分类器的分类能力,特别是在变量数量远远大于样变量的情形,STAN有着比其他分类方法更高的分类准确率。不仅如此,STAN还可以准确捕捉出信息变量以及它们彼此之间的交互作用。因此,STAN展现出很好稳定性,对于不同的情形1.L=50,N=400;2.L=500,N=400;3.L=2000,N=400,STAN的分类准确率几乎没有变化,而其他分类方法随着变量数量的增长,其分类效果出现不同程度的下降。特别是模拟数据2中,我模拟了没有边际作用,只存在交互作用的信息变量,对于这种数据,我的方法有效地识别出信息变量,而其他方法没有识别出。因此,STAN方法的分类准确率远远高于其他分类方法。最后,我又进一步改进了SPAN-2和STAN方法。过去的贝叶斯分类方法大都没有考虑噪声变量的交互作用对分类的影响,因此建立模型时往往容易将交互作用的噪声变量误分为信息变量,从而降低分类准确率或增大了模型的方差。为了解决这一问题,我将噪声变量进一步分为两组,一组包含了所有彼此独立的噪声变量,另一组包含了彼此相关的噪声变量。概括起来,所有变量被分为了4个组别,噪声变量2个组别,信息变量2个组别。对应于这种新的分组,我得到了GSPAN-2和GSTAN模型。通过模拟数据的检验,GSPAN-2和GSTAN有效地解决了噪声变量被误分组的问题。因此,GSPAN-2和GSTAN有着更好的分类能力和“抗噪”能力。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 本文研究的问题
  • 1.2 MCMC方法
  • 1.2.1 MH算法
  • 1.2.2 Gibbs抽样算法
  • 1.2.3 其他一些Monte Carlo算法
  • 1.2.4 MTM方法
  • 第二章 Naive Bayes以及SPAN分类方法
  • 2.1 Naive Bayes及各种改进
  • 2.1.1 Naive Bayes
  • 2.1.2 Naive Bayes的各种推广
  • 2.1.3 BEAM
  • 2.2 SPAN
  • 2.2.1 符号
  • 2.2.2 后验概率
  • 2.2.3 MCMC抽样
  • 2.2.4 分类
  • 2.3 SPAN-2
  • 2.4 模拟数据分析
  • 2.5 讨论
  • 第三章 树状分类器和STAN分类方法
  • 3.1 简介
  • 3.2 树状分类器
  • 3.2.1 分类树
  • 3.2.1.1 CART
  • 3.2.1.2 随机森林
  • 3.2.2 Boosting
  • 3.2.2.1 其他方法
  • 3.2.3 贝叶斯树
  • 3.2.4 贝叶斯网
  • 3.2.4.1 TAN
  • 3.2.5 小结
  • 3.3 STAN
  • 3.3.1 符号
  • 3.3.2 STAN模型的构造
  • 3.3.2.1 STAN的后验概率
  • 3.3.2.2 MCMC动作
  • 3.3.2.3 MCMC 抽样
  • 3.3.3 理论证明
  • 3.3.4 光滑预测
  • 3.3.5 贝叶斯模型平均
  • 3.4 模拟数据分析
  • 3.4.1 模拟数据1
  • 3.4.2 模拟数据2
  • 3.4.3 模拟数据3:Logistic回归
  • 3.5 应用实例
  • 3.5.1 实例1
  • 3.5.2 实例2
  • 3.6 讨论
  • 3.6.1 STAN的优点
  • 3.6.2 先验分布的参数设置
  • 第四章 SPAN和STAN的推广
  • 4.1 STAN的推广
  • 4.2 SPAN的推广
  • 4.3 模拟数据分析
  • 第五章 结论
  • 5.1 Monte Carlo算法
  • 5.2 SPAN-2以及STAN方法的特点
  • 5.3 进一步研究的方向
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].离散型随机变量及其分布列、期望与方差[J]. 黔南民族师范学院学报 2019(S1)
    • [2].二维离散型随机变量相互独立的判别准则[J]. 重庆工商大学学报(自然科学版) 2016(05)
    • [3].二维离散型随机变量独立性的判定[J]. 齐齐哈尔大学学报(自然科学版) 2015(03)
    • [4].求离散型随机变量期望与方差的常见策略[J]. 中学生数理化(高二使用) 2020(04)
    • [5].“离散型随机变量的分布列”教学设计[J]. 中国数学教育 2017(Z2)
    • [6].微专题六 离散型随机变量及其分布列(理)[J]. 中学数学教学参考 2017(Z1)
    • [7].“怎样解题”表在离散型随机变量问题中的运用[J]. 中学数学研究(华南师范大学版) 2017(15)
    • [8].离散型随机变量的均值及其实际应用[J]. 中学数学教学参考 2015(21)
    • [9].离散型随机变量均值的探究教学[J]. 中学数学月刊 2014(01)
    • [10].基于行为主义的“离散型随机变量”教学设计[J]. 中国数学教育 2010(06)
    • [11].离散型随机变量的分布列、期望和方差高考链接[J]. 中学生数理化(高二数学) 2018(06)
    • [12].“离散型随机变量性质”在解题中的两种运用[J]. 中学生数理化(学习研究) 2017(01)
    • [13].离散型随机变量的概率求解例举[J]. 高中数理化 2017(01)
    • [14].例谈离散型随机变量取值的确定[J]. 高中数理化 2017(01)
    • [15].“强行终止”条件下概率分布问题[J]. 高中数理化 2017(01)
    • [16].求离散型随机变量的分布列的几种思维方式[J]. 中学生数理化(高三) 2017(03)
    • [17].概率高考考点解析[J]. 高中生之友 2017(07)
    • [18].高中数学批判性思维方式养成研究——以《离散型随机变量及其分布列》为例[J]. 知音励志 2016(22)
    • [19].高中《离散型随机变量的分布列》教学新探究[J]. 数学大世界(中旬) 2017(06)
    • [20].如何设计符合学生认知规律的课堂教学——以人教版高中数学“离散型随机变量的分布列”教学为例[J]. 新课程(下) 2017(05)
    • [21].“离散型随机变量及其分布”考点例析[J]. 高中生之友 2016(07)
    • [22].注重概念形成过程,彰显课堂灵魂魅力——微课“离散型随机变量的均值与方差的定义”的教学随笔[J]. 数学通讯 2016(02)
    • [23].析离散型随机变量 看4类典型问题[J]. 高中数理化 2014(01)
    • [24].点击离散型随机变量[J]. 中学生数理化(高二高三版) 2014(02)
    • [25].探究离散型随机变量的知识规律题[J]. 理科考试研究 2012(07)
    • [26].离散型随机变量均值、方差在经济学中的应用[J]. 考试周刊 2012(29)
    • [27].点击:例析离散型随机变量[J]. 中学生数理化(高二高三版) 2013(02)
    • [28].离散型随机变量的特征分析与研究策略展示[J]. 高中数理化 2009(01)
    • [29].离散型随机变量命题的六大热点[J]. 广东教育(高中版) 2009(12)
    • [30].离散型随机变量的常见设题点[J]. 高中生 2010(09)

    标签:;  ;  ;  ;  

    离散型随机变量的贝叶斯分类方法研究
    下载Doc文档

    猜你喜欢