基因组尺度高信息量RNA干扰筛选数据分析:一类系统生物学应用中若干模式识别问题的研究

基因组尺度高信息量RNA干扰筛选数据分析:一类系统生物学应用中若干模式识别问题的研究

论文摘要

控制论、系统论思想与模式识别相关方法广泛参与诸多交叉学科的研究。控制论、系统论可以指导对各种实际问题的认知,模式识别相关方法则构成了具体的解决方案。本文将控制论、系统论与模式识别相关方法应用于一类系统生物学研究。具体的,以基因在细胞形态变化中的调控作用为主要研究对象,以在果蝇培养细胞种系中进行的大尺度高信息量RNA干扰筛选(RNAi HCS)为应用背景,我们分析并解决了RNAi HCS数据分析中的一系列问题,包括细胞形态表现型在线发现、表现型在线建模与确认、针对不同表现型的特征选择与细胞分类、综合单个细胞分类结果的基因功能建模等。我们将本文设计的一系列方法组合为一套完整的数据分析流程,并协助生物学者对近200万单个细胞图像进行综合分析,提出了“细胞形态表现型具有定型化性质”的生物学假设。本文提出利用高斯混合模型对表现型建模,改进了利用间隔统计估计聚类个数的方法、设计了迭代表现型兼并流程以比较新数据集与已知表现型的异同、利用最小分类误差方法实现表现型模型在线更新,最终形成了在线表现型发现算法。这种方法随着新数据的不断产生辨认新颖表现型,并对其进行建模与确认。当前的RNAi HCS数据分析流程大多使用手工挑选的典型表现型及代表细胞作为训练集,但数据集规模的不断扩大使手工分析难以反映整个数据集的完整风貌,我们的方法有效的解决了这一问题。为了考察整个数据集中各个细胞与典型表现型的相似程度,我们设计了“支持向量机迭代特征消去-遗传算法”联合特征选择方法,利用精简的特征集合描述表现型形态并使用以高斯径向基函数为核函数的支持向量机进行细胞分类。根据支持向量机对每个细胞形态的分析,我们执行一系列质量控制、统计分析及数据筛选与整合操作,为针对每个基因的RNAi实验挑选出一个带有稳定形态特征的细胞群落;根据可重复性细胞群落的形态特征生成每个基因的量化形态分值,并利用聚类分析辨别在细胞形态变化中发挥不同作用的基因与基因家族。本文以控制论、系统论为指导,整个数据分析流程中综合运用多种模式识别、统计分析技术,形成了完整、高效的RNAi HCS数据分析流程。在数据分析方案设计中注重动态与静态分析的对立统一,实现了典型表现型在线发现与在线建模;注重利用统计学方法发掘微观与宏观层面的联系,系统化处理单个细胞形态作为分析基因功能的基础;注重对单一层面分析结果的升华,努力通过特定应用的分析结果掌握普遍规律,提出并初步验证了细胞形态表现型具有定型化特点这一假设。

论文目录

  • 致谢
  • 摘要
  • Abstract
  • 目次
  • 1 绪论
  • 本章摘要
  • 1.1 基因组尺度高内涵RNA干扰筛选的研究背景及其意义
  • 1.1.1 RNAi筛选及相关疗法针对的生物学问题
  • 1.1.2 RNAi筛选的设计与实现
  • 1.2 RNAi HCS数据分析面临的挑战与研究现状
  • 1.2.1 图像处理:细胞分割与形态量化
  • 1.2.2 表现型的辨识、建模与分类
  • 1.2.3 统计分析及对基因功能的标注
  • 1.3 本文研究的主要内容
  • 1.3.1 研究动机与思路
  • 1.3.2 全文组织结构
  • 2 预备知识
  • 本章摘要
  • 2.1 RNAi HCS数据产生、细胞分割与形态量化
  • 2.1.1 细胞培养与成像流程
  • 2.1.2 细胞分割
  • 2.1.3 特征提取——利用211个形态特征量化细胞形态
  • 2.2 RNAi HCS数据分析流程中使用的部分方法
  • 2.2.1 估计聚类个数的间隔统计方法
  • 2.2.2 用于特征选择与细胞分类的支持向量机
  • 3 细胞表现型在线发现与建模
  • 本章摘要
  • 3.1 引言
  • 3.2 问题描述
  • 3.3 解决方案
  • 3.3.1 方法概述
  • 3.3.2 表现型建模与采样
  • 3.3.3 对间隔统计方法的改进
  • 3.3.4 基于"聚类合并"的在线表现型发现流程
  • 3.4 仿真结果
  • 3.4.1 克服不同聚类间样本数量的差距
  • 3.4.2 仿真细胞数据集描述
  • 3.5 真实数据集上的实验结果
  • 3.5.1 对应已知表现型的高斯混合模型
  • 3.5.2 案例1:通过聚类兼并从新数据中还原已知表现型
  • 3.5.3 案例2:利用训练集模拟新颖表现型的发现
  • 3.5.4 案例3:模拟多种表现型共生及与SVM相关算法的比较
  • 3.5.5 在基因组尺度高信息量RNAi筛选数据集中发现"rl/泪珠"表现型
  • 3.6 本章小结
  • 4 基于最小分类误差(MCE)的表现型模型在线修正
  • 本章摘要
  • 4.1 引言
  • 4.2 问题描述
  • 4.3 利用最小分类误差方法在线修正表现型模型
  • 4.3.1 解决方案
  • 4.3.2 改进后的在线表现型发现流程
  • 4.4 仿真结果
  • 4.4.1 基于不同已知表现型组合的算法性能
  • 4.4.2 对在线建模过程的改进有助提高算法性能
  • 4.5 真实数据集上的实验结果
  • 4.5.1 数据描述
  • 4.5.2 还原有生物意义的聚类
  • 4.5.3 从基因组尺度高信息量RNAi筛选中辨认新颖表现型数据描述
  • 4.5.4 使用箱式图展示还原已知表现型的能力
  • 4.5.5 从基因组尺度RNAi筛选中发现新颖表现型
  • 4.6 本章小结
  • 5 基于SVM的形态特征选择与细胞分类
  • 本章摘要
  • 5.1 引言
  • 5.2 问题描述
  • 5.3 解决方案
  • 5.3.1 结合SVM-RFE与遗传算法的特征选择方法(SVM-RFE-GA)
  • 5.3.2 使用SVM进行细胞分类
  • 5.4 对SVM及特征子集性能的交叉校验
  • 5.5 本章小结
  • 6 利用单个细胞形态的统计特征描述基因功能
  • 本章摘要
  • 6.1 引言
  • 6.2 问题描述
  • 6.3 解决方案
  • 6.3.1 从基于SVM的细胞分类到反应孔的原始形态分值
  • 6.3.2 汇总生成每个基因的标准化QMS
  • 6.3.3 使用QMS进行基因功能分级聚类
  • 6.4 实验结果
  • 6.4.1 重复性校验的典型结果
  • 6.4.2 基因功能聚类分析结果
  • 6.5 本章小结
  • 7 根据聚类结果研究细胞表现型的定型化
  • 本章摘要
  • 7.1 引言
  • 7.2 问题描述
  • 7.3 解决方案
  • 7.3.1 使用K-S检验比较单个细胞形态的分布模式
  • 7.3.2 在三维空间中绘制细胞形态表现型分布图景
  • 7.3.3 细胞表现型分布图景的解读
  • 7.4 本章小结
  • 8 总结与展望
  • 本章摘要
  • 8.1 全文总结
  • 8.2 研究展望
  • 参考文献
  • 附录A 攻读博士期间发表的论文及参与的科研项目
  • A.1 攻读博士期间作为第一作者完成的论文
  • A.2 攻读博士期间参与的科研项目
  • 相关论文文献

    • [1].长链非编码RNA、焦亡和心肌缺血-再灌注损伤[J]. 生物化学与生物物理进展 2019(12)
    • [2].非小细胞肺癌的潜在生物标记物:长链非编码RNA[J]. 现代肿瘤医学 2020(01)
    • [3].非编码RNA在细胞自噬中的研究进展[J]. 中国生物工程杂志 2019(12)
    • [4].环状RNA影响肝疾病的发生发展[J]. 中国生物化学与分子生物学报 2019(12)
    • [5].环状RNA在肝细胞癌中的作用及机制[J]. 中国生物化学与分子生物学报 2019(12)
    • [6].环状RNA在胃癌中的研究进展[J]. 生物技术通讯 2019(06)
    • [7].西花蓟马不同RNA干扰技术比较研究[J]. 福建农业学报 2019(10)
    • [8].微小RNA在非酒精性脂肪肝病中调控作用的研究进展[J]. 重庆医科大学学报 2019(12)
    • [9].卵巢上皮性癌中RNA结合基序蛋白3及环氧化酶-2的表达与意义[J]. 医疗装备 2019(23)
    • [10].非编码RNA在周围神经损伤修复中的重要角色和作用[J]. 中国组织工程研究 2020(14)
    • [11].长链非编码RNA在鼻咽癌中的研究进展[J]. 中国医药 2020(01)
    • [12].微小循环RNA在鉴别前列腺增生和前列腺癌的有效性分析[J]. 临床泌尿外科杂志 2020(01)
    • [13].长链非编码RNA调控肝纤维化信号通路的研究进展[J]. 胃肠病学 2019(11)
    • [14].环状RNA在肺腺癌中的差异表达分析[J]. 东南大学学报(医学版) 2019(06)
    • [15].环状RNA调控结肠直肠癌的研究进展[J]. 外科理论与实践 2019(06)
    • [16].RNA干扰药物——下一代治疗药物?[J]. 科学通报 2020(07)
    • [17].环状RNA生物学功能及其在组织修复过程中的作用[J]. 中国组织工程研究 2020(17)
    • [18].Deep Learning Deciphers Protein–RNA Interaction[J]. Genomics,Proteomics & Bioinformatics 2019(05)
    • [19].CIRCexplorer3:A CLEAR Pipeline for Direct Comparison of Circular and Linear RNA Expression[J]. Genomics,Proteomics & Bioinformatics 2019(05)
    • [20].环状RNA在冠状动脉粥样硬化性心脏病中的研究进展[J]. 心血管病学进展 2019(09)
    • [21].心肌纤维化研究的新领域——长链非编码RNA[J]. 心血管病学进展 2019(09)
    • [22].长链非编码RNA及相关调控通路与急性心肌梗死的研究进展[J]. 心血管病学进展 2019(08)
    • [23].微小RNA在自身免疫性甲状腺疾病中的研究进展[J]. 江苏大学学报(医学版) 2020(01)
    • [24].结直肠癌相关长链非编码RNA调控信号通路研究进展[J]. 西部医学 2020(02)
    • [25].环状RNA与肝癌相互关系的研究进展[J]. 中国卫生检验杂志 2020(03)
    • [26].非编码RNA在葡萄膜炎发生发展过程中的调控作用研究进展[J]. 眼科新进展 2020(01)
    • [27].长链非编码RNA在心血管疾病中的研究进展[J]. 临床误诊误治 2020(02)
    • [28].长链非编码RNA影响糖尿病心肌病的研究[J]. 糖尿病新世界 2020(01)
    • [29].骨肉瘤中环状RNA的研究进展[J]. 临床与病理杂志 2020(02)
    • [30].长链非编码RNA作为肾细胞癌预后生物标志物的研究新进展[J]. 现代肿瘤医学 2020(05)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    基因组尺度高信息量RNA干扰筛选数据分析:一类系统生物学应用中若干模式识别问题的研究
    下载Doc文档

    猜你喜欢