生物序列的图形表示及其应用

生物序列的图形表示及其应用

论文摘要

本文以生物序列的比较分析为背景,提出了一些新的图形表示,为生物序列的分类、分析、比较和储存等研究提供新的方法。另外,还展示了这些表示法在生物序列的相似性分析和构建进化树等问题上的具体应用。本文主要研究内容可以概括如下: 1.将DNA序列和氨基酸序列转化为2-D图形表示,DNA序列和氨基酸序列转化的二维图形类似于分子结构图,由此我们借助化学计量学方法计算了在经过转换所得图的基础上衍生出图的不变量(数学不变量)—Balaban指数和信息分布指数以及图对应的图论距离矩阵的平均频带宽度。并利用这些拓扑指数作为DNA序列和氨基酸序列的不变量分析了9个物种的β-球蛋白(globin)基因的第一个外显子DNA序列和6种yar029w等氨基酸序列的相似性和非相似性. 2.用1-D随机游动来描述DNA序列,得到了DNA序列对应的两个随机序列{Ym}和{xn},进而验证了两个随机序列{Ym}和{xn}都具有马尔可夫性,同时也得到了DNA序列的1-D游动曲线表示。基于DNA序列的图形表示以及马尔可夫链的转移概率分布、信息熵和随机序列的数字特征(均协方差)得到了DNA序列的一些新的数学不变量,进而利用这些数学不变量来比较了9个不同物种的β-球蛋白基因的第一个外显子的DNA序列的相似性。 3.现有的方法一般是基于多个序列的比对来构建物种进化树,我们提出了一种新的方法:在DNA序列的三维图形表示的基础上,利用图的不变量给出了序列之间的距离度量,进而定义了物种进化距离,并利用基于距离法的NJ算法构建了生物系统进化树,选取30个物种线粒体DNA序列为材料,得到的结果与传统的根据物种形态和其他方法构建的系统进化树基本一致。 4.在复平面上用二维随机游动来描述了RNA二级结构序列,得到了对应的随机游动曲线和随机复数字序列,在6-D空间中定义了使核苷酸集与点集之间一一对应的函数,进而利用这个函数在6-D空间中得到了RNA二级结构的6-D表示,然后基于6-D表示把它转化为矩阵表示和特征向量表示,并利用RNA二级结构对应的随机复数字序列的数字特征:模和相位,以及矩阵不变量:矩阵的最大特征值,特征向量来表征序列并且分析了AIMV-3等9种病毒的RNA二级结构序列的相似性。 5.给出了把RNA二级结构序列映射为“波谱线”和“Z型曲线”表示的三个递归公式.利用这三个递归公式给出了RNA二级结构序列的1-D、2-D和3-D图形表示,进一步利用1-D图形表示给出了关于RNA二级结构序列频谱分析的方法。 6.在DNA三联体密码子表示的基础上,在半复平面上给出了蛋白质序列的非退化的2-D图形表示,同时利用复向量的主要特征—模和相位,给出了蛋白质序列的一种数值刻划,进一步在3-D空间里,把20种氨基酸分别分配给正12面体的20个顶点,根据正12面体的对称性得到了20种氨基酸的3-D表示,进而得到了蛋白质序列的3-D图形表示和对应的数字序列,并利用图的不变量和数字序列的特征比较了9种动物的神经元

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 生物序列研究的背景、理论意义及应用价值
  • 1.2 生物序列的图形表示研究概况
  • 1.3 本文的主要工作
  • 2 拓扑指数的应用:生物序列的比较方法
  • 2.1 引言
  • 2.2 拓扑指数在生物序列相似性比较中的应用
  • 2.2.1 拓扑指数
  • 2.2.2 相似性比较
  • 2.3 DNA序列的特征数值
  • 2.3.1 DNA序列的图形表示
  • 2.3.2 矩阵不变量
  • 2.3.3 相似性分析
  • 2.4 小结
  • 3 用随机游动描述DNA序列
  • 3.1 引言
  • 3.2 随机游动与DNA序列
  • 3.3 DNA序列的特征数值
  • 3.4 相似性分析
  • 3.5 小结
  • 4 利用物种DNA序列的图形表示构建系统进化树的方法
  • 4.1 引言
  • 4.2 材料与方法
  • 4.2.1 材料
  • 4.2.2 方法1
  • 4.2.3 方法2
  • 4.3 进化树的构建
  • 4.4 小结
  • 5 RNA二级结构的相似性分析
  • 5.1 引言
  • 5.2 用二维随机游动描述RNA二级结构序列
  • 5.3 RNA二级结构的6-D表示
  • 5.4 小结
  • 6 RNA二级结构序列映射到“波谱线”和“Z型曲线”表示
  • 6.1 引言
  • 6.2 算法
  • 6.2.1 1-D表示
  • 6.2.2 2-D表示
  • 6.2.3 3-D表示
  • 6.3 RNA二级结构序列的频谱分析方法
  • 6.4 小结
  • 7 蛋白质序列的图形表示及其应用
  • 7.1 引言
  • 7.2 基于核苷酸三联体密码子上蛋白质序列的2-D图形表示
  • 7.2.1 DNA序列的2-D表示
  • 7.2.2 DNA三联体的2-D表示
  • 7.2.3 蛋白质序列的2-D图形表示
  • 7.2.4 DNA三联体的数值刻划
  • 7.3 蛋白质序列的3-D表示
  • 7.3.1 蛋白质序列的3-D表示
  • 7.3.2 应用举例
  • 7.4 小结
  • 8 附录:分子生物学知识概论
  • 8.1 核酸
  • 8.1.1 DNA
  • 8.1.2 RNA
  • 8.2 蛋白质
  • 8.3 分子遗传学机制
  • 8.3.1 基因和遗传密码
  • 8.3.2 中心法则:转录、翻译、和蛋白质的合成
  • 参考文献
  • 攻读博士学位期间发表学术论文情况
  • 创新点摘要
  • 致谢
  • 大连理工大学学位论文版权使用授权书
  • 相关论文文献

    • [1].数学模型在生物序列结构比较中的研究及其应用[J]. 安阳师范学院学报 2017(02)
    • [2].基于正则表达式的生物序列检索方法[J]. 莆田学院学报 2009(05)
    • [3].基于密度感知模式的生物序列分类算法[J]. 计算机应用 2018(02)
    • [4].生物序列搜索算法hmmsearch的加速技术[J]. 计算机工程 2010(20)
    • [5].生物序列数据挖掘技术的若干研究论述[J]. 山东工业技术 2016(15)
    • [6].边际核函数在生物序列分类中的应用[J]. 计算机应用与软件 2008(05)
    • [7].在當前審查實踐下獲得生物序列的合理專利保護範圍之探討[J]. 中国专利与商标 2015(03)
    • [8].生物软件在序列分析过程中的运用[J]. 生物信息学 2010(04)
    • [9].生物序列分析(生物信息学数据分析丛书)[J]. 遗传 2010(10)
    • [10].生物序列数据挖掘技术研究[J]. 合肥工业大学学报(自然科学版) 2012(09)
    • [11].通式肽单一性审查研究初探[J]. 中国发明与专利 2015(12)
    • [12].用网络方法识别生物序列motif[J]. 生物信息学 2008(04)
    • [13].基于非支配排序遗传算法求解启动子识别问题[J]. 基因组学与应用生物学 2014(06)
    • [14].科学出版社生命科学分社新书推介 2010-08[J]. 中国生物化学与分子生物学报 2010(10)
    • [15].基于位置信息熵的局部敏感哈希聚类方法[J]. 计算机应用与软件 2018(03)
    • [16].一种新的生物序列模式挖掘算法[J]. 电脑知识与技术 2010(19)
    • [17].基于知识库的基因组数据整合分析[J]. 生物信息学 2011(04)
    • [18].基于打分矩阵的生物序列频繁模式挖掘[J]. 模式识别与人工智能 2016(10)
    • [19].生物序列数据K-mer频次统计问题的算法[J]. 计算机系统应用 2014(04)
    • [20].WIPO的ST.26与ST.25标准比较研究[J]. 中国发明与专利 2020(08)
    • [21].GPGPU加速生物序列比对研究进展[J]. 生物信息学 2013(02)
    • [22].基于相邻频繁模式段的闭合序列模式挖掘算法[J]. 计算机工程与应用 2008(11)
    • [23].基于OpenFlow网络数据处理模型的研究[J]. 计算机科学与探索 2015(11)
    • [24].生物序列的聚类分析[J]. 生物信息学 2009(01)
    • [25].使用GPU加速BLAST算法初探[J]. 计算机工程与科学 2009(11)
    • [26].融合信息量差异和聚类精炼的多Motif识别[J]. 小型微型计算机系统 2017(09)
    • [27].BioIndex:一种生物序列相似性查询的高效索引[J]. 计算机应用与软件 2009(10)
    • [28].GPU OpenFlow海量数据网络处理模型——GOMDI[J]. 计算机应用 2014(08)
    • [29].基于知识表达系统的序列比对研究[J]. 四川理工学院学报(自然科学版) 2008(06)
    • [30].生物序列模体发现的最优化模型[J]. 成都大学学报(自然科学版) 2008(01)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    生物序列的图形表示及其应用
    下载Doc文档

    猜你喜欢