基于统计特征的DNA序列特征提取方法研究

基于统计特征的DNA序列特征提取方法研究

论文摘要

随着人类基因组计划的完成,以及各种生物基因序列的研究,人们已经获得了大量的基因组序列。在这些序列中含有丰富的信息,隐藏着复杂的生物学知识。如何从已经产生的海量数据中最大限度的挖掘有价值的信息成为科学家们面临的挑战和机遇。DNA序列的特征提取对于解读人类基因组所隐藏的结构和功能具有非常重要的意义。基于序列统计特征是指运用数学和信息科学理论的方法,从错综复杂的基因组序列中,提取一些体现其本质的具有代表性的特征。本文将提出两种不同的基于统计特征的序列提取方法。两种方法都是不需要序列比对,而且比传统的方法包含更多的信息,时间复杂度也很低。一种新的基于统计特征法添加了6个碱基之间的相关因子与传统的4维核苷酸组成相结合代表一条DNA序列,这比传统的4维核苷酸组成包含更多的序列影响信息。而且为了计算简单,我们使用了对序列进行分段处理,这样减少了时间复杂度,分段值M是任意取值的,不会影响计算结果。另一种新的基于统计特征法是在信息理论基础上提出来的。利用了信息理论中的信息熵和互信息理论,把单个碱基的概率和二联核苷酸的概率作为事件概率,利用信息理论的互信息熵求出四个碱基之间的16个互信息,因此一条DNA序列特征可以用这16个互信息熵表示。这种方法结合信息理论的思想得到了更多的序列影响信息,计算量也很少。基于统计特征法应用广泛。通常用于区分基因的不同功能区域,进行序列比较分析,系统进化分析和基因分类等。本文提出的两种方法主要应用于系统进化分析中,在利用这两种新方法提取出来的特征基础上,对物种进行相似性分析,然后利用基于距离法构建进化树,采用PHYLIP软件中的Neighbor.exe程序来评估进化树的构建,通过做实验来验证这两种方法的应用性。

论文目录

  • 摘要
  • Abstract
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.2 研究现状
  • 1.2.1 基于统计特征法
  • 1.2.2 基于图形表示法
  • 1.3 本文的主要工作
  • 1.4 本文的章节安排
  • 第2章 DNA 序列的统计特征基础
  • 2.1 单词频率特征
  • 2.2 二联核苷酸相对丰度特征
  • 2.3 碱基对的关联性特征
  • 2.4 相对密码子使用度特征
  • 2.5 统计特征的扩展
  • 2.6 序列特征提取在进化树构建的应用
  • 2.6.1 基于数字特征的距离矩阵构建
  • 2.6.2 基于距离矩阵的进化树构建
  • 2.6.3 评估进化树的软件
  • 2.7 小结
  • 第3章 一种新的DNA 序列统计特征方法
  • 3.1 新的统计特征法的基本思想
  • 3.2 新方法的具体步骤
  • 3.3 新方法在进化树构建方面的应用
  • 3.3.1 实验数据
  • 3.3.2 基于序列特征的相似分析
  • 3.3.3 进化树的构建
  • 3.4 小结
  • 第4章 基于信息理论的序列统计特征法
  • 4.1 信息理论
  • 4.2 基于信息理论的统计特征法的基本思想
  • 4.3 新算法的具体步骤
  • 4.4 新方法在进化树构建方面的应用
  • 4.4.1 实验数据
  • 4.4.2 基于序列特征的相似分析
  • 4.4.3 进化树的构建
  • 4.5 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录 A 攻读学位期间所发表的学术论文和参加的项目
  • 相关论文文献

    • [1].基于科学思维的“DNA是主要的遗传物质”教学设计[J]. 教育观察 2019(30)
    • [2].基于粪便DNA的贺兰山岩羊亲权鉴定和婚配制研究[J]. 生态学报 2019(22)
    • [3].通过调节蛋白酶K消化时长优化DNA提取方法[J]. 生物化工 2019(06)
    • [4].蛹虫草线粒体DNA与细胞核DNA进化关系的比较[J]. 微生物学报 2019(12)
    • [5].有毒有机物影响DNA酶解和抗生素抗性基因横向迁移[J]. 农业环境科学学报 2020(01)
    • [6].蓝莓栽培品种的DNA条形码[J]. 林业科学 2019(12)
    • [7].应用于多个沉香属物种鉴定的DNA条形码序列筛选[J]. 中国药学杂志 2019(23)
    • [8].抗核抗体和抗双链DNA检测在系统性红斑狼疮诊断中的意义[J]. 中国医疗器械信息 2019(23)
    • [9].幽门螺旋杆菌诱导的胃腺癌DNA甲基化基因修饰研究进展[J]. 中国老年保健医学 2019(06)
    • [10].DNA分析技术在法医物证鉴定中的应用[J]. 法制博览 2020(03)
    • [11].磁性纳米颗粒负载质粒DNA的研究[J]. 华南农业大学学报 2020(01)
    • [12].DNA智慧扶贫工作室教育扶贫策略与实践[J]. 科技风 2020(06)
    • [13].家畜冷冻精液DNA的纯化及影响因素分析[J]. 南京农业大学学报 2020(02)
    • [14].蝙蝠蛾拟青霉及金水宝胶囊的DNA条形码鉴定[J]. 中国实验方剂学杂志 2020(08)
    • [15].3种DNA分子标记法联合鉴别草珊瑚及其混伪品[J]. 中草药 2020(03)
    • [16].探讨无创DNA检测和羊水细胞染色体检查的意义[J]. 中国卫生标准管理 2020(03)
    • [17].乳头状甲状腺癌中线粒体DNA突变的研究[J]. 中国细胞生物学学报 2020(01)
    • [18].非标记表面增强拉曼光谱在DNA检测中的应用[J]. 激光生物学报 2020(01)
    • [19].彗星电泳检测草胺磷对蚯蚓体腔细胞DNA的损伤[J]. 广东农业科学 2020(01)
    • [20].基于DNA检测的肉制品鉴伪技术研究进展[J]. 食品工业科技 2020(08)
    • [21].绵羊血液中布氏杆菌DNA提取方法的比较研究[J]. 畜牧与兽医 2020(03)
    • [22].环境DNA在水体中存留时间的检测研究——以中国对虾为例[J]. 渔业科学进展 2020(01)
    • [23].云斑白条天牛成虫不同组织部位DNA提取方法比较[J]. 滨州学院学报 2019(06)
    • [24].三七片DNA条形码分子鉴定及方法学考察[J]. 中草药 2020(07)
    • [25].DNA倍体分析系统在脱落细胞学及术中病理诊断中的应用[J]. 中国农村卫生 2020(03)
    • [26].DNA免疫吸附治疗重度活动性系统性红斑狼疮的疗效观察[J]. 中国社区医师 2020(07)
    • [27].红肉猕猴桃再生体系的建立及DNA条形码鉴定[J]. 植物生理学报 2020(03)
    • [28].蛋白质精氨酸甲基转移酶1调控DNA损伤修复和细胞凋亡[J]. 海洋科学 2020(03)
    • [29].基于密度梯度离心技术分离稳定同位素DNA的方法研究[J]. 实验科学与技术 2020(02)
    • [30].基于DNA链置换的可满足性问题的计算模型[J]. 阜阳师范学院学报(自然科学版) 2020(01)

    标签:;  ;  ;  ;  ;  

    基于统计特征的DNA序列特征提取方法研究
    下载Doc文档

    猜你喜欢