论文摘要
随着人类基因组计划的完成,人类进入了后基因组时代,基因组研究的重心转向基因组信息分析,而基因剪接是真核基因组信息分析中的一项重要内容。同时,海量生物数据的出现,促使生物信息技术成为后基因组时代的核心技术。20世纪90年代以来,已经有一些模式识别方法被应用于基因识别中,如:支持向量机,隐马尔可夫模型,神经网络等方法,并取得了一些成功的结果。然而,这些模式识别方法在应用于剪接位点识别的过程中还存在着一些问题,例如:特征序列参数需要人为设定,选取的输入特征冗杂,特征序列没有体现位点之间的概率相关性等。针对上述问题,本文对基于变长马尔可夫模型( Variable Length Markov Model, VLMM )的剪接位点识别方法进行了研究,主要完成了以下工作:1.分析并总结了VLMM应用在基因剪接位点识别中的优缺点;2.用KL(Kullback Leibler)距离来改进VLMM的序列扩展方向,以优化模型的特征选取,从而提高模型识别特征序列的能力;3.提出VLMM的概率后缀树( Probabilistic Suffix Tree, PST )训练算法,通过遍历PST来得到VLMM的条件概率,使模型实现不仅变长而且变阶,为模型节省大量的存储空间;4.基于所提出的以上方法构建了基于VLMM的剪接位点识别实验系统,验证了方法的有效性。最后,对所做的工作进行了总结,并对以后将要研究的内容进行了展望。
论文目录
相关论文文献
标签:剪接位点识别论文; 变长马尔可夫模型论文; 距离论文; 概率后缀树论文;