DNA微阵列数据的变量选择方法研究

DNA微阵列数据的变量选择方法研究

论文摘要

近年来,随着DNA微阵列技术的迅猛发展,产生了大量基因表达谱数据,并被广泛应用于癌症的诊断与分型。DNA微阵列技术可以在一次实验中记录在不同样本条件下成千上万的基因表达数据。面对如此庞大的数据矩阵,生物信息学方法如:聚类分析,判别分析以及回归分析等方法被用来解析及挖掘数据中所蕴含的知识。由于基因表达数据本身所特有的小样本,高维性特点,要求在建立模型之前首先对数据进行变量挑选,本文主要对不同的变量选择方法进行了研究以及比较,并提出了一种新的变量选择方法,具体内容为:1.在基于模型聚类分析法(MPA)以及无信息变量消除法(UVE)的基础上,本文提出了一种新的变量选择方法,Noise Incorporated Subwindow Permutation Analysis(NISPA),并将这种方法与支持向量机相结合。NISPA不仅解决了常见的变量选择方法难以克服的模型稳定性问题,并且更为科学的以噪音变量为参照标准来划分变量,而不是常见的人为划分。该方法的核心在于使用添加的噪音变量的重要性分布作为参照标准来评估每一个基因变量,将所有变量分为三大类,分别为:有信息变量,无信息变量(噪音)以及干扰变量。与传统的变量选择方法只能鉴定出有信息变量以及噪音的特点相比,NISPA更是首次辨识出来对模型的影响比噪音更差的一类变量,即干扰变量。结合有信息变量以及干扰变量,更能全面了解疾病的病理途径,对癌症的准确诊断与分型带来可能。本文采用了两个公开发表的癌症数据Colon以及Estrogen来测试NISPA的运行效果,结果显示经由NISPA筛选出来的有信息变量可以显著提高模型的预测准确率,是一种较好的变量选择方法。2.本文从以下三个方面进一步对NISPA算法进行了分析:(1)对比Q=1的NISPA与常见的单变量选择方法,如:Pearson相关系数法、Spearman秩相关系数法,结果表明,Q=1的NISPA与单变量选择方法在不同的数据上具有不同的一致性程度,且Q=1的NISPA筛选出的变量优于其他单变量选择方法;(2)对比Q=1的NISPA与最优Q值(Q>1)的NISPA,发现这两种条件下计算出的变量重要性值具有较大差异,且最优Q值条件下筛选出的变量能显著提高模型预测准确率,表明变量与变量之间的相互作用对最终挑选出的有信息变量影响非常大;(3)对比NISPA与其他的多变量选择方法,如:基于序列前向选择的变量选择方法(SFS)以及迭代特征消除法(RFE),留一交叉验证结果表明NISPA具有较强的竞争能力,是一种较好的变量选择方法替代法。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 DNA微阵列技术与基因表达数据
  • 1.1.1 DNA微阵列技术简介
  • 1.1.1.1 原位合成技术
  • 1.1.1.2 合成点样法
  • 1.1.2 基因表达数据
  • 1.1.2.1 基因表达数据的获得
  • 1.1.2.2 基因表达数据特点
  • 1.2 模式识别方法
  • 1.2.1 变量选择方法
  • 1.2.1.1 变量选择方法分类
  • 1.2.1.2 基于模型聚类分析(MPA)的变量选择方法
  • 1.2.1.3 基于基因表达谱的变量选择方法
  • 1.2.2 判别分析法—SVMs
  • 1.2.2.1 SVM的线性判别分析
  • 1.2.2.2 SVM的非线性判别分析
  • 1.3 本论文主要工作
  • 1.3.1 课题研究内容
  • 1.3.2 课题研究难点
  • 1.3.3 课题研究创新
  • 第二章 NISPA变量选择方法
  • 2.1 引言
  • 2.2 理论和方法
  • 2.2.1 基本理论
  • 2.2.1.1 基于PLS的无信息变量消除法(UVE-PLS)
  • 2.2.1.2 基于蒙特卡罗的无信息变量消除法(MC-UVE)
  • 2.2.2 NISPA方法
  • 2.2.2.1 变量空间随机抽样以及噪音的添加
  • 2.2.2.2 基于线性SVM建立子模型
  • 2.2.2.3 统计分析变量的重要性分布
  • 2.3 结果与讨论
  • 2.3.1 Colon数据
  • 2.3.2 Estrogen数据
  • 2.4 本章小结
  • 第三章 变量选择方法之间的比较
  • 3.1 引言
  • 3.2 基本理论
  • 3.2.1 皮尔逊相关系数
  • 3.2.2 Spearman秩相关系数
  • 3.2.3 基于序列前向选择的变量选择方法
  • 3.2.4 基于支持向量机的递归特征消除法
  • 3.3 实验步骤
  • 3.3.1 对比NISPA Q=1与单变量选择方法的相关性
  • 3.3.2 对比Q=1的NISPA与最优Q值的NISPA的变量重要性值
  • 3.3.3 对比NISPA与其他多变量选择方法
  • 3.4 结果与讨论
  • 3.4.1 对比NISPA Q=1与单变量选择方法的相关性
  • 3.4.2 对比Q=1的NISPA与最优Q值的NISPA的变量重要性值
  • 3.4.3 对比NISPA与其他多变量选择方法
  • 3.5 本章小结
  • 结论与展望
  • 参考文献
  • 致谢
  • 攻读学位期间主要研究成果
  • 相关论文文献

    • [1].基于惩罚方法的贝叶斯群组变量选择[J]. 绵阳师范学院学报 2017(02)
    • [2].中位数回归的贝叶斯变量选择方法[J]. 应用概率统计 2019(06)
    • [3].变量选择集成方法[J]. 工程数学学报 2019(01)
    • [4].基于风险函数评价自变量选择对预测的影响[J]. 哈尔滨师范大学自然科学学报 2012(01)
    • [5].变量选择偏离对预测的影响研究[J]. 统计与决策 2016(12)
    • [6].基于特征子空间虚假邻点判别的软传感器模型变量选择[J]. 机械工程学报 2011(12)
    • [7].函数型变量选择法用于空气质量影响因素实证分析[J]. 安庆师范大学学报(自然科学版) 2017(04)
    • [8].污染数据的稳健稀疏成组变量选择方法研究[J]. 统计与信息论坛 2018(06)
    • [9].应用统计类专业探究性教学模式探索与实践——以变量选择准则为例[J]. 赤峰学院学报(自然科学版) 2014(19)
    • [10].基于两种非凸惩罚函数的稀疏组变量选择[J]. 应用数学与计算数学学报 2018(03)
    • [11].基于t函数的稳健变量选择方法[J]. 上海理工大学学报 2017(06)
    • [12].高维部分线性小波模型中的变量选择[J]. 宁波工程学院学报 2018(02)
    • [13].个人住房抵押贷款违约相关变量选择[J]. 现代管理科学 2009(04)
    • [14].Ensemble-SISPLS近红外光谱变量选择方法[J]. 光谱学与光谱分析 2019(04)
    • [15].含函数型自变量回归模型中的变量选择[J]. 北京航空航天大学学报 2019(10)
    • [16].基于变量选择和聚类分析的两阶段异方差模型估计[J]. 应用概率统计 2018(02)
    • [17].基于可见-近红外光谱变量选择的土壤全氮含量估测研究[J]. 中国农业科学 2014(12)
    • [18].基于M-估计单指标模型的变量选择[J]. 兰州理工大学学报 2017(06)
    • [19].比例数据的贝叶斯变量选择[J]. 数理统计与管理 2018(03)
    • [20].主因子逼近方法在变量选择中的应用[J]. 湖南理工学院学报(自然科学版) 2019(01)
    • [21].基于自加权变量组合集群分析法的近红外光谱变量选择方法研究[J]. 分析化学 2018(01)
    • [22].基于迭代光滑L_(1/2)算法的变量选择[J]. 应用数学与计算数学学报 2016(01)
    • [23].高维部分线性模型中的变量选择[J]. 北京工业大学学报 2011(02)
    • [24].一种基于频率与回归系数相结合的自举柔性收缩变量选择方法[J]. 仪器仪表学报 2020(01)
    • [25].探究变量选择的常见方法[J]. 通讯世界 2019(03)
    • [26].几种高维变量选择方法的比较及应用[J]. 统计与决策 2017(22)
    • [27].变系数模型的变量选择[J]. 统计与决策 2016(12)
    • [28].贝叶斯变量选择及模型平均的研究[J]. 统计与信息论坛 2015(08)
    • [29].分位数回归模型中的两步变量选择(英文)[J]. 上海师范大学学报(自然科学版) 2015(03)
    • [30].线性回归模型中变量选择方法综述[J]. 数理统计与管理 2010(04)

    标签:;  ;  ;  ;  ;  

    DNA微阵列数据的变量选择方法研究
    下载Doc文档

    猜你喜欢