论文摘要
植物mRNA序列中多聚腺苷化位点(简称poly(A)位点)识别是基因识别的重要组成部分,在基因组分析中,对poly(A)位点的正确识别有助于确定基因编码的终止位置,对分析基因的转录过程及探索基因表达的调控机制都起着十分重要的作用。大量的研究人员已经对不同生物的poly(A)位点识别问题进行了研究,但由于植物的poly(A)位点表现出分散性、多样性以及复杂性的特点,所以在植物mRNA序列中关于poly(A)位点选择的理解仍十分有限。判别分析是根据判别对象若干个指标的观测结果判定其应属于哪一类的统计学方法。逐步判别分析是对进入判别模型的特征根据对判别贡献的大小进行逐步选择,最后根据筛选出的特征建立判别模型。本文根据拟南芥poly(A)位点上下游周围序列顺式作用元件的特征,运用逐步判别分析的方法来建立poly(A)位点的识别模型。对建立模型采用的训练集数据,使用k-gram核苷酸模式、Z曲线、位置特异性分数矩阵、一阶异构马尔可夫模型、阶乘矩等方式表示提取的生物特征;首先使用基于信息增益、熵等多种属性选择算法对特征空间进行初步的筛选,获得若干重要特征。而后对得到的序列特征的数值编码作为逐步判别分类的输入,针对训练数据建立判别模型。本文使用建立的判别模型对测试数据进行预测,并对各测试组的预测结果进行分析,发现逐步判别分类在识别精度上基本取得了令人满意的结果。逐步判别在位点识别模型的建立过程中可以进一步筛选出对位点预测有显著作用的特征,选择出的变量更能够反应类间差异,大大减少了新序列测定位点所需抽取的特征量。模型的训练和测试结果表明,拟南芥poly(A)位点的逐步判别模型是一种有效且高性能的位点预测模型。