论文摘要
当前,随着基因组学的发展和相应的技术的提高,能获得的数据不仅仅是基因表达数据,还包括甲基化数据,miNRA数据,蛋白质数据等等。这一技术上的革新以及数据量的增多,使得我们对基因调控功能的探索这一基本的基因组学任务不再单一的考虑。基因在不同的调控阶段受到不同的调控子的控制,生物体是一个机整体,但是他有着复杂的结构,基因并不是孤立的在生命体中存在的,生物体中的各部件相互作用并不是简单的线性关系,基因和蛋白质之间、基因和基因之间、生物体与外部环境之间存在复杂的相互作用,它们形成一个复杂的网络体系,对于单个基因的研究无法从整体上认识生命体和生命体的行为。为了对复杂的生物网络在转录调控和转录后调控阶段的功能和意义的获取,本研究将利用现有的生物网络,结合生物信息学算法和工具,构建一个包含转录因子、miRNA和基因构成的交互调控网络(Circuit)。从整体上了解circuit调控网络,可以帮助我们更好地理解生物基因转录、翻译的深层调控机制;其次,从circuit调控网络结构的改变,让我们对细胞分化和癌症生成等生物现象有更深层次的理解,能给研究这些生物现象提供理论上的依据和支持;再次,有助于医学专家从病理角度发现控制和治疗癌症的方法。因此,本文提出一个连续时间点相关模式的评价标准,结合基于关联规则的方法挖掘circuit调控网络,考虑不同的circuit在小鼠肺发展过程中的动态调控过程。另外一方面,考虑正常样本与癌症样本之间的差异性,进一步分析circuit的调控网络的不同功能特性。依据上面的分析,可以发现circuit是一个很有意义的调控单元,并且在癌症与正常样本之间具有其独特的特性,因此,结合特征选择算法,设计一个支持向量机分类器,对癌症进行预后分析。本文从以下几个方面分析circuit调控网络的构建及具体的应用。(1)针对连续的时序表达数据相关性的评价。针对连续少时间点的表达数据,拟对其相关性度量开展如下的研究:提出相关模式的概念,根据连续的时间点之间的表达趋势的变化情况,分析其变化态势,设计高表达和低表达的认定原则,构建一个能完善穷举表达趋势的树型结构。针对多样本的基因表达数据,考虑不同的相关性评价标准,选取合适的相关性评价标准,描述调控关系。(2)设计适合于时间点较少的相关模式的挖掘算法。设计关联规则挖掘算法,挖掘连续的时间点上的共调控模式,确定模式之间的关联关系,挖掘出有意义的相关模式是我们拟研究的内容。针对时间点数目不同的相关模式,实现最大关联的相关模式,优化最大关联关系挖掘算法,包括阂值的设定,搜索规则的制定,剪枝策略的制定,制定最优化的启发式搜索算法。(3)基于相关模式的小鼠肺发展数据的circuit动态调控网络构建的实例研究。在已知的转录调控和转录后调控数据库的基础上,依据相关模式的关系构建circuit网络,结合时序的小鼠肺发展芯片数据,利用计算手段,研究可能影响小鼠肺发展过程的因素。(4)基于相关模式的小鼠肺发展与癌症发展的circuit动态调控机制实例研究。挖掘在癌症样本中的表达趋势与正常样本的表达呈现相逆的基因,着重分析这些基因的异常表达的因素,解释其生物机制。(5)基于circuit调控特征的癌症预后的应用研究。采用嵌入法的原则进行特征选择,构建支持向量机模型,根据生物学家对于GBM的存活天数进行的类别划分,设计出一个基于circuit特征的支持向量机分类模型,对GBM进行癌症预后的研究。