基于随机森林的致病SNPs检测方法研究

基于随机森林的致病SNPs检测方法研究

论文摘要

随着高通量测序技术的发展,并伴随着国际人类基因组单体型作图计划的完成,全基因组关联研究在技术上和费用上逐渐变得可以实行,因此对复杂疾病的致病基因检测是一个重要的研究课题。同时,复杂疾病一般都是由多个基因-基因相互作用的结果,因此基因间相互作用也将成为一个重要的研究方向。随机森林是一种新型的数据挖掘方法,逐渐开始应用于各个领域。随机森林方法不仅能够预测分类结果,而且能够计算变量重要性值,本文应用随机森林方法分析全基因组SNP数据集,计算每个SNP变量重要性值,变量重要性值越高的SNP致病性越强,以此为依据探测和疾病密切相关的SNPs。对风湿性关节炎模拟数据集和老年性黄斑变性真实数据集生长出随机森林并计算每个SNP的变量重要性值,得到变量重要性值最高的SNPs,实验结果表明该方法可以作为致病SNPs检测的有效参考方法。随后,针对SNP-SNP相互作用组合数目过大问题,以及随机森林生成过程中分类树的数目、节点随机属性数目参数选择的可靠性问题,提出了一种基于随机森林的SNPs子集过滤方法,获得了数目较少的SNPs子集,并进一步的分析了单点或者SNP间相互作用关系。对老年性黄斑变性真实数据集实验结果表明,该方法可以有效的探测致病SNPs以及SNP-SNP间相互作用,对进一步的生化实验具有有效的参考价值。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文主要工作和内容安排
  • 第2章 随机森林方法介绍
  • 2.1 全基因组遗传数据
  • 2.2 随机森林方法及其各组成部分
  • 2.2.1 偏差-方差分解
  • 2.2.2 分类回归树
  • 2.2.3 分类回归树的 Bagging 集成方法
  • 2.2.4 分类回归树的随机性注入
  • 2.2.5 随机森林方法的框架体系
  • 2.3 小结
  • 第3章 基于随机森林的致病单位点 SNP 检测
  • 3.1 变量重要性值
  • 3.1.1 Gini importance 值
  • 3.1.2 Permutation importance 值
  • 3.2 随机森林的参数调节
  • 3.2.1 对参数 mtry 的调节
  • 3.2.2 CART 数目的调节
  • 3.2.3 随机森林树的规模控制
  • 3.3 基于随机森林的单点致病 SNP 检测
  • 3.3.1 数据预处理
  • 3.3.2 基于随机森林的单致病 SNP 检测方法
  • 3.4 实验与分析
  • 3.4.1 模拟数据集的实验和结果分析
  • 3.4.2 真实数据集的实验和结果分析
  • 3.5 小结
  • 第4章 基于随机森林的致病 SNP 相互作用检测
  • 4.1 基因间相互作用介绍
  • 4.2 基因间相互作用的统计学模型
  • 4.3 基于随机森林参数调节的属性过滤
  • 4.3.1 参数调节的属性过滤方法
  • 4.3.2 实验和结果分析
  • 4.4 SNP-SNP 间相互作用关系检测
  • 4.4.1 SNP-SNP 间相互作用关系检测方法
  • 4.4.2 实验和结果分析
  • 4.5 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录 A 攻读学位期间发表的论文
  • 附录 B 攻读硕士学位期间参与的科研项目
  • 相关论文文献

    • [1].基于马尾松转录组测序的产脂相关SNPs初步分析[J]. 广西林业科学 2020(02)
    • [2].10个SNPs与京海黄鸡生长性状的关联性分析[J]. 中国兽医学报 2015(12)
    • [3].维生素D受体SNPs基因多态性与新疆汉族2型糖尿病视网膜病变相关性研究[J]. 新疆医科大学学报 2016(09)
    • [4].大口黑鲈转录组SNPs筛选及其与生长的关联分析[J]. 水生生物学报 2016(06)
    • [5].基于基因组SNPs的南极恩克斯堡岛阿德利企鹅繁殖种群的遗传结构[J]. 生物多样性 2019(12)
    • [6].西安市30~36月龄幼儿肥胖遗传度及4个SNPs位点多态性分析[J]. 中国当代儿科杂志 2020(04)
    • [7].The Association between LINC00511 Variants and Breast Cancer Susceptibility among the Han Chinese Population[J]. Journal of Nutritional Oncology 2020(02)
    • [8].肌联蛋白基因SNPs位点多态性与延边黄牛生长性状间的关联分析[J]. 畜牧与兽医 2017(10)
    • [9].脑源性神经营养因子基因3个SNPs位点与精神分裂症的相关性[J]. 宁夏医科大学学报 2010(09)
    • [10].金定鸭卵巢组织转录组SNPs和可变剪接分析[J]. 中国家禽 2020(02)
    • [11].GnRH基因SNPs与鹅体组成和蛋品质性状的关联分析[J]. 中国畜牧杂志 2020(10)
    • [12].Association of single nucleotide polymorphisms of tissue factor and tissue factor pathway inhibitor with venous thromboembolism in patients with lung cancer[J]. China Medical Abstracts(Internal Medicine) 2018(02)
    • [13].新疆褐牛产奶性状候选基因SNPs检测及其遗传效应分析[J]. 中国农学通报 2017(20)
    • [14].随机森林方法在致病SNPs检测中的应用[J]. 世界科技研究与发展 2012(04)
    • [15].Identification of a combination of SNPs associated with Graves' disease using swarm intelligence[J]. Science China(Life Sciences) 2011(02)
    • [16].Differences in clinical and genetic characteristics between early-and late-onset narcolepsy in a Han Chinese cohort[J]. Neural Regeneration Research 2020(10)
    • [17].美洲水貂刺鼠信号蛋白基因SNPs检测及其与毛色表型的关联分析[J]. 畜牧兽医学报 2016(04)
    • [18].中国一短指畸形家系20p12.2-12.3中非编码区的SNPs报道[J]. 中国优生与遗传杂志 2013(07)
    • [19].基于GBS技术的新杨绿壳纯系蛋鸡SNPs检测[J]. 中国家禽 2018(13)
    • [20].太平洋牡蛎HSP70基因SNPs开发及其与温度相关性分析[J]. 广东海洋大学学报 2017(03)
    • [21].翘嘴鳜淀粉酶基因SNPs和微卫星位点多态性的检测[J]. 暨南大学学报(自然科学与医学版) 2013(01)
    • [22].Identification of SNPs and Their Effects on Swine Growth and Carcass Traits for Porcine IGFBP-3 Gene[J]. Agricultural Sciences in China 2008(05)
    • [23].Relationship between glucokinase gene 6 tag single nucleotide polymorphism sites and type 2 diabetes mellitus[J]. China Medical Abstracts(Internal Medicine) 2016(01)
    • [24].小型猪生长激素基因启动子区SNPs分析[J]. 畜牧兽医学报 2009(05)
    • [25].结肠癌中奥沙利铂毒性和耐药性相关基因SNPs的研究进展[J]. 临床与病理杂志 2014(06)
    • [26].肿瘤坏死因子基因6个SNPs与河南汉族原发性高血压的相关性研究[J]. 中国慢性病预防与控制 2011(06)
    • [27].凡纳滨对虾α-淀粉酶基因的SNPs检测[J]. 水产科学 2008(07)
    • [28].贵妃鸡肌细胞生成素基因SNPs检测及其与屠宰性状的相关性分析[J]. 中国畜牧兽医 2013(11)
    • [29].个体识别SNPs位点组合筛选与法医学应用价值初探[J]. 中国法医学杂志 2014(02)
    • [30].β_2肾上腺素受体基因5个位点SNPs与河南汉族原发性高血压关系的研究[J]. 中国慢性病预防与控制 2010(04)

    标签:;  ;  ;  ;  

    基于随机森林的致病SNPs检测方法研究
    下载Doc文档

    猜你喜欢