基于图和网络的学习算法及其在系统生物学中的一些应用

基于图和网络的学习算法及其在系统生物学中的一些应用

论文摘要

随着社会和科学技术的不断发展,人们正在积累越来越多的各个层次的数据和信息,但是这并没有从根本上解决许多具有挑战性的问题。最典型的例子是,二十世纪分子生物学的迅速发展只是获得了细胞各个组分的知识,而并没有攻克很多复杂的疾病,比如癌症等。这意味着我们需要从系统的水平整合不同的知识和数据,研究它们内部的相互关系和作用,从而才能最终掌握复杂系统的规律,对它们进行控制和优化。同时由于海量数据的复杂性,我们需要机器学习和数据挖掘技术对信息进行自动加工。图和网络是表达复杂系统内部不同尺度、不同组分之间相互作用和关联的最直观的方式。因此,我们迫切需要结合实际应用领域,例如系统生物学,发展基于图和网络的学习算法对系统进行研究。本文针对基于图和网络的学习算法,以实际分类问题和系统生物学中的一些应用为驱动背景,以图论、统计、优化方法为基本工具,以数据整合为核心,以结点分类、链接预测、子网发现和图匹配问题为对象和目标,对基于图和网络的学习算法进行了深入的研究。本文的主要研究内容和创新点包括以下几个方面:1.本文综述了基于图和网络的学习算法,介绍了系统生物学的定义和当前的发展,阐述了图和网络在当前系统生物学中的核心作用,指出了图和网络的方法在以系统生物学为代表的实际应用中的巨大潜力。2.考虑基于链接的半监督结点分类问题,以图的拉普拉斯矩阵的谱变换来构造半监督核为目标,本文提出了一种基于图的同时学习最优非参数谱变换和构建分类器的半监督学习方法。该算法的基本思想是以最大化特征空间的Fisher判别率作为谱变换图核学习和分类器构建的共同准则,并转化为一个半定规划的凸优化问题来求解。与利用核配准进行半监督核学习的算法比较,该算法不需要再进行分类器训练,因为分类器的学习和最优核的构造是同时完成的。在7个分类数据集上,该算法性能均优于或相当于当前基于核校准准则的半监督学习算法。3.考虑药物-蛋白相互作用网络的预测问题,本文以最大化集成网络中结点属性、链接信息以及未标记样本的信息为目标,提出应用流形正则化的半监督学习算法,并利用核方法整合药物化学分子结构信息、蛋白质序列信息和药物-蛋白网络拓扑结构信息来对未知的药物-蛋白相互作用进行预测,从而提高了预测的精度。用我们提出的方法预测的一些药物-蛋白相互作用已经被最新的药物数据库证实。4.从系统生物学的角度出发,考虑把蛋白质-DNA和蛋白质-蛋白质相互作用网络整合到基因微阵列数据的分析中。为了辨识与疾病相关的基因功能模块,本文提出了一个新的基于相互作用网络的正则化项来鼓励系数的绝对值在网络上的平滑,结合(?)1范数的稀疏特性,得到一种基于图的弹性网算法,并从理论上分析了新的正则化项的数学特性,开发了一种新的求解算法,该算法具有全路径计算的优点。理论分析和仿真结果表明,基于图的弹性网算法能得到更小的预测误差。最后,将我们的算法应用到一个阿尔茨海默病的微阵列基因表达数据集上,辨识出了四个与阿尔茨海默病相关的基因功能模块。5.为了融合不同尺度和模态的信息,考虑把反映分子功能信息的三维荧光分子断层扫描(FMT)图像和反映解剖结构的CT图像进行配准,从而在一幅图像上同时表达多方面的信息。但是直接配准最大直径只有几个毫米的肿瘤的三维FMT图像和体长有近十厘米的整个小鼠的三维CT图像是非常困难的。由于我们可以得到二维平面图像跟FMT图像的坐标关系。因此本文提出一个新的思路,即先对FMT成像过程中得到的二维平面图像与三维的CT图像进行预配准,预配准的结果再作为下一步FMT和CT三维配准的初始值,这样就减小了最终三维配准时两个对象的大小差异所导致的配准难度。在配准过程中,对两个对象分别进行分割得到点集,将问题转化为点集图匹配,使配准完全不同模态的图像成为可能。对于匹配的优化算法,结合全局和局部优化的思想,提出了两种优化方法:结合最小二乘进行局部搜索的序贯蒙特卡罗采样算法;结合差分进化和把最小二乘作为另一种搜索方式的单纯形法。大量的仿真实验结果验证了结合全局搜索和局部搜索优化算法在减少迭代次数和寻优能力上的优越性。最后,在两个实际小鼠数据上的运行结果显示这种预配准的方法为下一步三维FMT和CT图像的配准提供了很好的初始值。

论文目录

  • 致谢
  • 摘要
  • Abstract
  • 1 绪论
  • 本章摘要
  • 1.1 基于图和网络的学习算法
  • 1.1.1 结合链接信息的结点分类
  • 1.1.2 链接预测
  • 1.1.3 子网发现和图分类
  • 1.1.4 图匹配
  • 1.2 当前系统生物学的发展
  • 1.2.1 系统生物学的定义
  • 1.2.2 系统生物学的基础-信息
  • 1.2.3 系统生物学的灵魂-整合
  • 1.2.4 系统生物学的手段-建模和仿真
  • 1.3 图和网络的观点在系统生物学中的应用
  • 1.3.1 图和网络在系统生物学应用中的现状
  • 1.4 本文立题依据及主要内容
  • 1.4.1 研究动机和思路
  • 1.4.2 全文组织结构
  • 2 预备知识
  • 本章摘要
  • 2.1 图论及其基础知识
  • 2.1.1 基本概念
  • 2.1.2 拉普拉斯矩阵
  • 2.2 半监督学习(Semi-supervised Learning)
  • 2.3 核方法相关知识
  • 2.3.1 非线性映射和特征空间
  • 2.3.2 核技巧(Kernel Trick)
  • 2.3.3 Mercer定理
  • 2.3.4 定义:再生核希尔伯特空间
  • 2.3.5 核函数性质
  • 2.3.6 表现定理(Representer Theorem)
  • 2.4 半定规划基础知识
  • 2.4.1 半定规划定义
  • 2.4.2 Schur补引理
  • 1范数稀疏性'>2.5 (?)1范数稀疏性
  • 2.5.1 LASSO
  • 1范数的稀疏性'>2.5.2 从几何角度理解(?)1范数的稀疏性
  • 1范数最小化的优化方法'>2.5.3 (?)1范数最小化的优化方法
  • 2.6 光学分子成像
  • 2.6.1 近红外光成像
  • 2.6.2 荧光分子断层扫描
  • 3 基于谱变换图核的半监督核Fisher判别分析法
  • 本章摘要
  • 3.1 引言
  • 3.2 问题描述
  • 3.3 核Fisher判别分析法
  • 3.3.1 基本概念
  • 3.3.2 核技巧(Kernel Trick)
  • 3.4 基于半定规划的谱变换
  • 3.4.1 半监督KFDA的一般凸公式
  • 3.4.2 半定规划求解谱变换
  • 3.5 实验结果
  • 3.6 本章小结
  • 4 基于半监督学习的药物-蛋白相互作用网络预测
  • 本章摘要
  • 4.1 引言
  • 4.2 数据描述
  • 4.3 算法描述
  • 4.3.1 整合的权重属性法(Combining weighted profile)
  • 4.3.2 LapRLS和NetLapRLS用于药物-蛋白相互作用预测
  • 4.4 实验结果
  • 4.4.1 交叉验证下的结果分析
  • 4.4.2 最终预测结果分析
  • 4.5 本章小结
  • 5 基于图的弹性网算法用于基因数据分析中的参数选择和模块辨识
  • 本章摘要
  • 5.1 引言
  • 5.2 问题描述
  • 5.3 优化算法
  • 5.3.1 LARS(Least Angle Regression)
  • 5.3.2 提出新的全路径算法解决GENet
  • 5.4 GENet群效应特性的理论分析
  • 5.5 仿真结果
  • 5.6 实际数据分析
  • 5.7 本章小结
  • 6 三维CT图像和FMT(荧光分子断层)图像的配准研究
  • 本章摘要
  • 6.1 引言
  • 6.2 问题描述
  • 6.3 序贯蒙特卡罗优化算法
  • 6.3.1 浓缩法(条件密度传播)
  • 6.3.2 用于配准的动态模型
  • 6.3.3 用于配准的观测模型
  • 6.3.4 仿真实验结果
  • 6.4 结合差分进化和改进的单纯形法的优化算法
  • 6.4.1 算法过程
  • 6.4.2 算法小结
  • 6.4.3 仿真数据
  • 6.5 本章小结
  • 7 总结和展望
  • 7.1 全文总结
  • 7.2 研究展望
  • 7.3 本章小结
  • 参考文献
  • 附录A 攻博期间完成的论文及参与的项目
  • A.1 攻博期间完成的论文
  • A.2 参与的科研项目
  • 相关论文文献

    • [1].算法:一种新的权力形态[J]. 治理现代化研究 2020(01)
    • [2].算法决策规制——以算法“解释权”为中心[J]. 现代法学 2020(01)
    • [3].面向宏观基本图的多模式交通路网分区算法[J]. 工业工程 2020(01)
    • [4].算法中的道德物化及问题反思[J]. 大连理工大学学报(社会科学版) 2020(01)
    • [5].算法解释请求权及其权利范畴研究[J]. 甘肃政法学院学报 2020(01)
    • [6].算法新闻的公共性建构研究——基于行动者网络理论的视角[J]. 人民论坛·学术前沿 2020(01)
    • [7].算法的法律性质:言论、商业秘密还是正当程序?[J]. 比较法研究 2020(02)
    • [8].关键词批评视野中的算法文化及其阈限性[J]. 学习与实践 2020(02)
    • [9].掌控还是被掌控——大数据时代有关算法分发的忧患与反思[J]. 新媒体研究 2020(04)
    • [10].美国算法治理政策与实施进路[J]. 环球法律评论 2020(03)
    • [11].算法解释权:科技与法律的双重视角[J]. 苏州大学学报(哲学社会科学版) 2020(02)
    • [12].大数据算法决策的问责与对策研究[J]. 现代情报 2020(06)
    • [13].大数据时代算法歧视的风险防控和法律规制[J]. 河南牧业经济学院学报 2020(02)
    • [14].风险防范下算法的监管路径研究[J]. 审计观察 2019(01)
    • [15].模糊的算法伦理水平——基于传媒业269名算法工程师的实证研究[J]. 新闻大学 2020(05)
    • [16].算法推荐新闻对用户的影响及对策[J]. 新媒体研究 2020(10)
    • [17].如何加强对算法的治理[J]. 国家治理 2020(27)
    • [18].“后真相”背后的算法权力及其公法规制路径[J]. 行政法学研究 2020(04)
    • [19].算法规制的谱系[J]. 中国法学 2020(03)
    • [20].论算法排他权:破除算法偏见的路径选择[J]. 政治与法律 2020(08)
    • [21].政务算法与公共价值:内涵、意义与问题[J]. 国家治理 2020(32)
    • [22].算法的法律规制研究[J]. 上海商业 2020(09)
    • [23].新闻算法分发对隐私权的冲击及规制[J]. 青年记者 2020(27)
    • [24].算法如何平等:算法歧视审查机制的建立[J]. 南海法学 2020(02)
    • [25].蚁群算法在文字识别中的应用研究[J]. 信息与电脑(理论版) 2019(22)
    • [26].大数据聚类算法研究[J]. 无线互联科技 2018(04)
    • [27].RSA算法的改进研究[J]. 计算机与网络 2018(14)
    • [28].智能时代的新内容革命[J]. 国际新闻界 2018(06)
    • [29].改进的负载均衡RSA算法[J]. 电脑知识与技术 2018(25)
    • [30].基于深度学习的视觉跟踪算法研究综述[J]. 计算机科学 2017(S1)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于图和网络的学习算法及其在系统生物学中的一些应用
    下载Doc文档

    猜你喜欢