序列研究是生物研究的基础,对于蛋白质各方面的研究也大多从蛋白质序列入手。序列相似性分析是序列研究的重要方面,从序列图形表达来研究相似性是一种有效的方法,因为它能提供一种可视化的图形,便于直观的分析序列间的相似和不相似。本文的主要工作是寻求更好的蛋白质序列的图形表达方法及其在蛋白质亚细胞定位和结构预测中的应用。本文首先基于遗传密码子的分布构建一种新的蛋白质三维图形表达方法。从核苷酸三联体中寻求20种氨基酸的分布特征,基于对称性和近邻关系选择一种分布方式。接着将其应用到生物序列的进化树构建上,其结果与多序列比对方法Cluster W的结果相同。接着给出一种新的循环距离计算方法,并应用到蛋白质亚细胞定位中。结果表明这种方法尽管比不上某些机器学习方法,但比其中一些方法的结果要好,而且该方法不需要计算矩阵,也不需要机器学习过程,计算简单,易于实现。接着从氨基酸的进化关系和物理化学性质出发得到了一种新的蛋白质序列的二维图形表达方法。在这种表达方法中运用的二维数据包含了三维的信息。其中第一维是从核苷酸分析得到的氨基酸的进化指数;第二维包含了氨基酸的物理化学性质以及氨基酸在序列中出现顺序的信息。表达图形可以很方便的应用于分析序列中的突变以及缺失。运用离散傅立叶变换技术,处理蛋白质表达图形中的离散数字序列,得到相同长度的频域序列,以频域序列间的距离来对序列进行相似分析。最后将该方法运用到蛋白质结构预测中。
本文来源: https://www.lw50.cn/article/f1a2d92f0b440d86c7882b74.html