论文摘要
肿瘤是当今危及人类身体健康的重要疾病之一,其产生和发展是一个可以分为多个阶段的复杂过程。它通常是由于某些基因的异常表达,从而导致细胞内一些蛋白质分子发生改变,并由此导致病变的产生。基因芯片技术的发展,促进了分子水平上的肿瘤研究。从海量的肿瘤基因表达数据中,挖掘出有用的信息和知识,可以更加全面的认识肿瘤的基因本质,对深入研究肿瘤的发病机理和肿瘤的诊断治疗有重要的推动作用。决策森林法是上世纪90年代提出的一种基于决策树和分类器融合技术的特征选择算法,能有效地选择特征基因和对肿瘤分类,在肿瘤的研究中得到较为广泛地应用。基于此,本文将研究重点放在利用决策森林法分析肿瘤基因表达谱数据,并选择分类特征基因上,主要做了如下工作:(1)应用决策森林法进行了特征基因选择,评价了决策森林的特征选择性能。决策森林是基于递归分类树的有监督学习方法,为保证其所选基因在其他分类器上的泛化性,利用SVM进行分类效果验证,并与SAM、ReliefF和PCA等三种特征选择方法进行比较。在实验所选5组肿瘤数据上的结果显示,决策森林特征基因选择性能优于另三种算法。(2)研究了决策森林中类权重的设置问题。肿瘤基因表达谱具有样本少、变量多、类与类之间样本量差异较大等特点。这将减小不均衡数据对分类结果的影响,从而使决策森林的特征基因选择和分类效果产生误差。针对这种情况,本文讨论了决策森林类权重的设置。实验证明,设置不同的类权重能使决策森林对小样本不均衡数据的分类和特征选择效果有不同程度的提高。(3)相关基因通路分析和解释决策森林所选基因的生物意义。DNA微阵列分析为识别疾病类型及鉴别特征基因等生物研究提供了重要的研究手段。但目前大量使用的基于单基因的分析方法受样本数量和噪音的影响较大,无法呈现基因间的相互关系。而基因信号通路分析则是解决这一问题的一种有效方法。基因信号通路是目前一种重要的基因组研究方法,对所选择基因在基因信号通路中所起的作用以及通路中基因之间的相互作用进行了研究。本文采用Molecule Annotation System (MAS)软件对基因数据进行基因信号通路分析。MAS是一种用于挖掘基因间相互关系和通路的生物学信息的工具。该研究对机器学习算法与生物学方法的结合进行了初步尝试,讨论了基因之间的联系,寻找到部分与癌症有关的特征基因和信号通路,对今后类似的研究有一定的借鉴意义。