论文摘要
真核基因普遍具有外显子被内含子分隔的割裂结构。基因转录过程中的剪接加工是基因表达调控的重要机制,而可变剪接是转录组复杂多样性的重要来源,在机体发育、组织特异性表达、疾病发生和发展等方面起重要作用,因此真核基因剪接机制的研究具有重要科学意义。海量的实验数据里蕴藏了丰富的基因剪接机制相关的信息。本文基于已有实验数据研究了真核基因剪接机制相关特征:利用较大的已知剪接结构的基因数据集分析了基因剪接的结构特征;利用比较词频的统计方法和组织特异的可变剪接数据集分析了可变剪接调控元件的特征;提出了剪接比对方法EIparser和基于图论的可变剪接分析方法Expath,用来分析剪接的形式特征;基于转录数据、标准基因组数据以及高性能计算,构建了标准转录数据集和转录组可变剪接分析系统,为可变剪接的功能研究奠定了基础。基因剪接的结构特征研究是利用从基因组注释中提取的较大的已知剪接结构的基因数据集,系统考察基因预测程序中常用的基因剪接的结构特征,包括剪接的长度特征、外显子相位相关特征和剪接位点信号特征。因为分析的数据集规模较大,获得的特征具有比较普遍的意义。结果发现第一内含子长度偏长,可能与第一内含子的特殊功能相关。编码区外显子三相位终止密码子特征分析发现,剪接结构在非翻译相位具有敏感的相位错误监控机制,而且两个非翻译相位同时参与监控。剪接位点在位置权重阵列模型下的信号强度特征为可变剪接位点相比固定剪接位点信号强度有所弱化,两者与假位点的信号强度分布均有部分重叠。本文建立了包括位点碱基组成、碱基三元组组成、位点信号强度、配对位点局部最优值的特征向量,采用支持向量机方法进行剪接位点预测,其识别真假位点的特异性比仅依赖位点信号强度的方法有所提高。可变剪接的调控元件特征研究是根据实验发现的一种剪接因子竞争决定剪接位点选择的机制,将ASAP数据库中脑组织特异的可变剪接位点数据集,按照特异可变剪接位点选择的远近位置进行分类,利用比较词频的统计方法获得了一些显著过表达于参照数据集的剪接调控元件。有一部分计算结果与已有实验验证的元件吻合。对元件进行物种间的保守性分析,结果表明本文计算获得的元件具有潜在的调节功能,新发现的元件模式为实验研究提供了有价值的数据。根据已有实验验证的元件的功能,初步探讨了可变剪接与调控元件之间的关系。本文利用了剪接结构特征分析获得的知识,在剪接比对基本算法的框架下,实现了改进的剪接比对程序EIparser。与已有剪接比对程序相比,获得的剪接结构更准确,结果表示更符合生物学意义。利用EIparser,构建了基于RefSeq数据库的模式生物标准转录数据集,揭示了RefSeq数据存在的问题。本文实现的利用基因组信息的、基于图论的可变剪接分析方法Expath,比传统的转录数据分析方法具有更好的计算效率,鉴定的可变剪接类型更为完整可靠,产生的信息更为丰富。最后,基于高性能计算,本文建立了以EIparser和Expath为主要方法的转录组可变剪接分析系统。