论文摘要
随着人类基因组计划测序工作的完成,生命科学的研究重点已经从确定DNA序列组成转移到了研究基因功能。复杂疾病易感基因,及其与疾病关联方式的确定,将有助于增进复杂疾病发病机理的理解,进而对复杂疾病的预防,诊断和治疗产生重大影响。尽管如基因芯片,高通量测序等新技术产生了海量的生物数据,但是由于数据本身所具有的特征基因维数高和上位作用等特点,使得对于复杂疾病的研究迟迟没有取得突破性的进展。因此如何对生物数据进行降维,同时保留其中的上位作用,并建模上位作用基因与复杂疾病的关系,成为了复杂疾病全基因组关联研究的热点。本文从以上两方面出发,提出了对包含上位作用的数据进行降维的方法和建模上位作用与疾病关系的方法,并提出了将这两种方法结合的先过滤后分类机制,实现在软件之中。总结起来,本文的主要工作和创新点如下:1.提出了一种基于动态样本选择的特征选择算法。ReliefF方法通过比较最近邻的特征取值差异与类别差异对特征进行评估,因为能够检测特征之间的相互作用,所以ReliefF及其改进方法被广泛应用于上位作用分析之中。但是ReliefF方法只是静态的评估特征在整个样本空间中的重要性,而没有考虑到未选中特征对于被已选中特征分类正确的样本来说是冗余的。为此本文提出了基于动态样本选择的ReliefF算法,动态的在被已选中的特征分类错误的样本空间中重新评估剩余特征的重要性,提高了ReliefF算法筛选上位作用基因的能力。2.提出了一种建模基因与疾病表型关系的分类算法。多因子降维方法通过比较所有单核苷酸多态(single nucleotide polymorphism, SNP)组合各个基因型与总体的对照病例比,将该基因型划分为高风险和低风险。由于对SNP组合进行穷举的特性,它只能局限于小规模数据的应用上。本文提出了基于禁忌搜索的多因子降维方法,利用禁忌搜索来代替穷举搜索。该方法主要对禁忌搜索框架从解的编码方案,初始解和邻域解生成,全局多样化搜索三个方面进行了适合上位作用分析的改造,解决了原始多因子降维方法无法推广到大规模数据分析中的问题。3.提出了先过滤后分类的检测上位作用机制,并将其实现在软件之中。通过将特征选择算法对特征的评分转换为分类算法生成解时选择SNP的概率,我们结合了之前的过滤器和分类器。结合之后的方法解决了分类器分类正确率相对较低的问题,同时进一步缩短了计算时间,更具有实用意义。
论文目录
相关论文文献
- [1].小麦α-淀粉酶活性的遗传模型分析[J]. 安徽农业科学 2010(04)
- [2].基于禁忌搜索的多因子降维在上位作用检测中的应用[J]. 武汉大学学报(理学版) 2011(06)