论文摘要
随着数学与计算机技术的飞速发展和巨量生物学数据的不断积累,一门新兴的充满活力的交叉学科——计算分子生物学(Computational Molecular Biology)应运而生。计算分子生物学主要是研究生物学应用上具有计算复杂度的问题,它吸引了许多计算机学家、分子生物学家、数学家等积极投入研究。生物序列分析是计算分子生物学研究的核心内容,传统的分析方法主要是以序列比对方法为主,而随着“后基因组(post-genome)”时代的到来,生物序列分析的非比对方法作为对传统方法的补充和发展已逐渐成为计算分子生物学研究中的一个热点领域。本文在对传统的序列比对方法进行简要回顾的基础上,较系统地总结了已有的非比对方法并提出了一些新的非比对方法,然后针对一些具体的生物序列进行了分析研究。本文的主要工作包括以下几个方面:基于生物序列的概率向量表示,提出了一种新的距离度量——正规化欧氏距离,重构了两组蛋白质序列集CK35和SP86的二级结构分类,并利用ROC曲线和AUC值与传统的比对方法和其它距离度量得到的分类结果进行了比较。以生物序列L-联体为核心,给出了DNA序列的一种8D向量表示和高维向量表示,并根据滑动窗口不同的起始位置构造相关矩阵,选取相关矩阵的正规化最大特征值和Frobenius范数作为数值特征比较序列的相似性。作为应用,我们比较了十一个物种的β-球蛋白基因的第一个外显子的相似性;简单模拟了DNA序列高维向量表示及相关矩阵在数据库搜索方面的应用;重构了H5N1型禽流感病毒全基因组编码序列的种系进化树。基于L-联体在生物序列中出现的次数和位置,根据离散随机变量分布函数的定义提出了L-联体特征分布的概念,以此来反映L-联体的分布规律,揭示生物序列中所包含的生物信息。利用此特征分布我们研究了11个物种β-球蛋白第一个外显子的GC特征分布图;重构了24种冠状病毒全基因组序列,34种哺乳动物线粒体全基因组序列和40种跨膜蛋白序列的种系树。
论文目录
相关论文文献
标签:联体论文; 距离度量论文; 曲线论文; 线粒体基因组论文; 冠状病毒论文; 禽流感病毒论文; 跨膜蛋白论文; 邻结法论文; 种系发生树论文;