变量选择和变换的新方法研究

变量选择和变换的新方法研究

论文摘要

21世纪被誉为生命科学的世纪,仪器和分析技术快速发展,化学和生物学数据的积累呈指数级增长。然而,对于这些不断增长的海量数据,如何从中发现更多、更有价值的信息是对化学和生命科学研究的一个巨大挑战。在解决这些超大规模数据问题时,经常碰到的问题之一就是“维数灾难”。在低维空间里计算上可行的办法,在高维空间里可能变得全无实际意义。如何处理含大量变量的超大规模数据集,需要提出新的思路和新的解决办法。对于这样的高维数据,一个很直观的想法便是选择并保留一些重要变量(变量选择)或者通过原有变量的线性/非线性组合来代替原来的变量(变量变换)。本论文的主要内容就是变量选择和变换的新方法的研究。首先简述了定量构效关系的基本原理,实现步骤以及研究现状,简单介绍了一些传统的变量选择方法;同时简述了超大规模数据常用的降维方法,包括变量变换和从统计学角度进行变量选择的一些方法。接着从三个层次的研究策略提出了变量选择及变换的新方法,包括核函数方法,多阶统计量变换方法,模式变量方法等。核函数近年来在机器学习等许多领域获得了重要的应用,本文将其引入偏最小二乘方法。以样本之间的关系代替原变量之间关系的方式,用于数据的回归以及分类等。这样数据不需进行变量选择,避免了不同选择方法选择出的变量不相同的结果,取得了不错的结果。其次提出了多阶统计量变换方法。统计矩可以反映数据集整体的变化方式,这里用多阶统计矩构建新的特征变量。将数据分为若干区域,得到每个分区的4阶统计量,并以此分区信息作为新的变量进行计算,变量数目减少,分类效果进一步提高。上述两种方法考虑到了数据的整体和局部信息,但是都没有反映出特征变量的具体贡献,因此又提出了模式变量的方法。探索了连续变量的模式表达方法,将连续变量转换成模式变量,进一步减少了变量数,简单地说,模式的组合就构成了模式变量。针对肿瘤和对照集分别提取出各自特异的表达模式,也取得了较好的结果。在应用研究方面,选取了几个实际应用体系,将上述方法应用于复杂疾病的诊断、计算蛋白质组学、环境污染物重要性质的预测以及药物辅助设计等研究,具有很好的应用前景及重要的理论和实际意义。复杂疾病诊断的应用包括蛋白质芯片(SELDI-TOF)卵巢癌分类和基因芯片白血病分类,都得到了令人满意的结果,对复杂疾病的早期诊断提供了有价值的参考结果。在计算蛋白质组学应用中,对多肽保留时间进行了预测,对蛋白质的定性定量分析提供了一个比较可靠的方法。预测持久性环境污染物dioxins保留时间和保留特征值,并结合其与芳烃受体的对接结果预测毒性,为进一步建立环境中持久污染物的分析体系提供有价值的理论依据。本文将KPLS应用于计算机辅助药物分子设计,尝试通过利用分子对接的结果如对接能量、配体和受体的原子间距离等建立构效关系模型,研究了细胞周期蛋白依赖性激酶2(CDK2)抑制剂、神经氨酸酶抑制剂环己烯衍生物,今后还需要进一步深入的研究。

论文目录

  • 摘要
  • Abstract
  • 第Ⅰ部分 前言和方法综述
  • 第1章 前言
  • 1.1 化学计量学和化学信息学的发展和新任务
  • 1.2 生物统计和生物信息学
  • 1.3 课题来源
  • 1.4 本文的主要内容和成果
  • 第2章 方法综述
  • 2.1 QSAR
  • 2.1.1 QSAR的发展
  • 2.1.2 QSAR的步骤
  • 2.1.2.1 分子结构参数
  • 2.1.2.2 建模方法
  • 2.1.2.3 QSAR中的变量选择方法
  • 2.2 超大规模数据的降维
  • 2.2.1 分类问题的变量选择
  • 2.2.1.1 T检验法
  • 2.2.1.2 Wilkins法
  • 2.2.1.3 Chi-square法
  • 2.2.2 变量变换
  • 2.2.2.1 线性组合
  • 2.2.2.2 非线性组合
  • 2.3 核函数
  • 2.3.1 核函数的发展
  • 2.3.2 核函数构造方法简介
  • 2.3.3 常用的核函数方法
  • 2.3.3.1 Kernel PLS
  • 2.3.3.2 KPCA
  • 2.3.3.3 KFDA
  • 2.3.3.4 核聚类方法
  • 2.3.4 核方法的特点
  • 第Ⅱ部分 蛋白质芯片数据分析
  • 第3章 KPLS分类预报
  • 3.1 蛋白质组学概述
  • 3.2 SELDI-TOF
  • 3.2.1 SELDI-MS操作步骤
  • 3.2.2 SELDI-TOF在血清肿瘤标志物检测中的应用
  • 3.3 KPLS
  • 3.4 卵巢癌SELDI-TOF数据分析
  • 3.4.1 结果评价
  • 3.4.2 低分辨率卵巢癌数据处理
  • 3.4.3 高分辨率卵巢癌数据分析
  • 3.5 结论
  • 第4章 多阶统计量变换
  • 4.1 多阶统计量
  • 4.2 结果
  • 第5章 模式变量
  • 5.1 模式挖掘
  • 5.2 挖掘流程
  • 5.3 计算结果
  • 5.3.1 肿瘤模式
  • 5.3.2 对照模式
  • 5.4 讨论
  • 第Ⅲ部分 核函数变换应用于其它实例
  • 第6章 基因芯片数据分析
  • 6.1 基因芯片技术概述
  • 6.2 基因表达谱数据处理策略
  • 6.2.1 数据预处理
  • 6.2.2 特征提取
  • 6.3 芯片数据分析
  • 6.3.1 降维
  • 6.3.2 自组织映射
  • 6.3.3 结果与讨论
  • 6.3.3.1 数据和处理方法
  • 6.3.3.2 验证
  • 第7章 多肽保留时间预测
  • 7.1 多肽鉴定概述
  • 7.2 多肽保留时间的相关研究
  • 7.3 计算结果
  • 7.3.1 多肽的描述变量
  • 7.3.2 保留时间预测结果
  • 第8章 持久性有机污染物-PCDD/FS
  • 8.1 有机污染物QSAR概述
  • 8.2 DIOXINS简介
  • 8.3 PCDD/Fs结构参数
  • 8.4 保留时间预测结果与讨论
  • 8.4.1 模型的比较
  • 8.4.2 模型验证
  • 8.5 DIOXINS毒性研究与芳烃受体蛋白
  • 8.5.1 Dioxins与芳烃受体蛋白
  • 8.5.2 Dioxins毒性与结构关系研究
  • 第9章 药物分子设计中的定量构效关系研究
  • 9.1 神经氨酸酶抑制剂
  • 9.2 计算步骤
  • 9.3 结果与讨论
  • 9.4 小结
  • 第Ⅳ部分 结语和展望
  • 致谢
  • 个人简历 在读期间发表的学术论文与研究成果
  • 参考文献
  • 相关论文文献

    • [1].基于惩罚方法的贝叶斯群组变量选择[J]. 绵阳师范学院学报 2017(02)
    • [2].当前状态数据中比例风险模型的一种贝叶斯变量选择方法(英文)[J]. 中国科学技术大学学报 2020(10)
    • [3].中位数回归的贝叶斯变量选择方法[J]. 应用概率统计 2019(06)
    • [4].变量选择集成方法[J]. 工程数学学报 2019(01)
    • [5].基于风险函数评价自变量选择对预测的影响[J]. 哈尔滨师范大学自然科学学报 2012(01)
    • [6].变量选择偏离对预测的影响研究[J]. 统计与决策 2016(12)
    • [7].基于特征子空间虚假邻点判别的软传感器模型变量选择[J]. 机械工程学报 2011(12)
    • [8].函数型变量选择法用于空气质量影响因素实证分析[J]. 安庆师范大学学报(自然科学版) 2017(04)
    • [9].污染数据的稳健稀疏成组变量选择方法研究[J]. 统计与信息论坛 2018(06)
    • [10].应用统计类专业探究性教学模式探索与实践——以变量选择准则为例[J]. 赤峰学院学报(自然科学版) 2014(19)
    • [11].基于两种非凸惩罚函数的稀疏组变量选择[J]. 应用数学与计算数学学报 2018(03)
    • [12].基于t函数的稳健变量选择方法[J]. 上海理工大学学报 2017(06)
    • [13].高维部分线性小波模型中的变量选择[J]. 宁波工程学院学报 2018(02)
    • [14].个人住房抵押贷款违约相关变量选择[J]. 现代管理科学 2009(04)
    • [15].Ensemble-SISPLS近红外光谱变量选择方法[J]. 光谱学与光谱分析 2019(04)
    • [16].含函数型自变量回归模型中的变量选择[J]. 北京航空航天大学学报 2019(10)
    • [17].基于变量选择和聚类分析的两阶段异方差模型估计[J]. 应用概率统计 2018(02)
    • [18].基于可见-近红外光谱变量选择的土壤全氮含量估测研究[J]. 中国农业科学 2014(12)
    • [19].基于M-估计单指标模型的变量选择[J]. 兰州理工大学学报 2017(06)
    • [20].比例数据的贝叶斯变量选择[J]. 数理统计与管理 2018(03)
    • [21].主因子逼近方法在变量选择中的应用[J]. 湖南理工学院学报(自然科学版) 2019(01)
    • [22].基于自加权变量组合集群分析法的近红外光谱变量选择方法研究[J]. 分析化学 2018(01)
    • [23].基于迭代光滑L_(1/2)算法的变量选择[J]. 应用数学与计算数学学报 2016(01)
    • [24].高维部分线性模型中的变量选择[J]. 北京工业大学学报 2011(02)
    • [25].一种基于频率与回归系数相结合的自举柔性收缩变量选择方法[J]. 仪器仪表学报 2020(01)
    • [26].探究变量选择的常见方法[J]. 通讯世界 2019(03)
    • [27].几种高维变量选择方法的比较及应用[J]. 统计与决策 2017(22)
    • [28].变系数模型的变量选择[J]. 统计与决策 2016(12)
    • [29].贝叶斯变量选择及模型平均的研究[J]. 统计与信息论坛 2015(08)
    • [30].分位数回归模型中的两步变量选择(英文)[J]. 上海师范大学学报(自然科学版) 2015(03)

    标签:;  ;  ;  ;  ;  ;  

    变量选择和变换的新方法研究
    下载Doc文档

    猜你喜欢