基于判别分析的植物poly(A)位点识别研究

基于判别分析的植物poly(A)位点识别研究

论文摘要

植物mRNA序列中多聚腺苷化位点(简称poly(A)位点)识别是基因识别的重要组成部分,在基因组分析中,对poly(A)位点的正确识别有助于确定基因编码的终止位置,对分析基因的转录过程及探索基因表达的调控机制都起着十分重要的作用。大量的研究人员已经对不同生物的poly(A)位点识别问题进行了研究,但由于植物的poly(A)位点表现出分散性、多样性以及复杂性的特点,所以在植物mRNA序列中关于poly(A)位点选择的理解仍十分有限。判别分析是根据判别对象若干个指标的观测结果判定其应属于哪一类的统计学方法。逐步判别分析是对进入判别模型的特征根据对判别贡献的大小进行逐步选择,最后根据筛选出的特征建立判别模型。本文根据拟南芥poly(A)位点上下游周围序列顺式作用元件的特征,运用逐步判别分析的方法来建立poly(A)位点的识别模型。对建立模型采用的训练集数据,使用k-gram核苷酸模式、Z曲线、位置特异性分数矩阵、一阶异构马尔可夫模型、阶乘矩等方式表示提取的生物特征;首先使用基于信息增益、熵等多种属性选择算法对特征空间进行初步的筛选,获得若干重要特征。而后对得到的序列特征的数值编码作为逐步判别分类的输入,针对训练数据建立判别模型。本文使用建立的判别模型对测试数据进行预测,并对各测试组的预测结果进行分析,发现逐步判别分类在识别精度上基本取得了令人满意的结果。逐步判别在位点识别模型的建立过程中可以进一步筛选出对位点预测有显著作用的特征,选择出的变量更能够反应类间差异,大大减少了新序列测定位点所需抽取的特征量。模型的训练和测试结果表明,拟南芥poly(A)位点的逐步判别模型是一种有效且高性能的位点预测模型。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 前言
  • 1.2 一些相关的生物学方面的基础知识
  • 1.2.1 遗传物质
  • 1.2.2 遗传密码
  • 1.2.3 基因的结构及表达
  • 1.3 Poly(A)位点识别研究的意义
  • 1.4 植物Poly(A)位点识别的现状
  • 1.5 本文的研究内容和采用的方法
  • 1.6 本文的结构
  • 第二章 植物Poly(A)位点特征空间的产生
  • 2.1 训练和测试用的数据
  • 2.2 植物Poly(A)位点周围序列的碱基分布特征
  • 2.3 特征的提取及相应算法
  • 2.3.1 K-gram 核苷酸模式
  • 2.3.2 Z 曲线分量及偏差量
  • 2.3.3 基于PSSM 的CIS 分值
  • 2.3.4 基于一阶异构马尔可夫子模型的概率
  • 2.3.5 NUE 六联子权重
  • 2.3.6 各信号区域的阶乘矩值
  • 2.4 特征空间的产生
  • 2.5 特征的初步选择
  • 第三章 基于判别分析的位点识别模型
  • 3.1 判别分析算法
  • 3.2 模型的训练和测试过程
  • 3.2.1 判别分析全模型
  • 3.2.2 逐步判别模型
  • 3.2.3 逐步回归与判别分析结合建立模型
  • 第四章 结果分析
  • 4.1 各测试集识别结果
  • 4.1.1 性能指标
  • 4.1.2 识别结果
  • 4.1.3 结果分析
  • 4.2 各特征对位点识别的影响
  • 4.3 与其他分类方法的比较
  • 第五章 总结与展望
  • 5.1 全文总结
  • 5.2 不足与改进建议
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于判别分析的植物poly(A)位点识别研究
    下载Doc文档

    猜你喜欢