论文摘要
基因芯片技术因其能同时快速测量成千上万条基因的表达水平,被广泛地应用于基因组层次上研究细胞的基因表达模式。随着微阵列技术广泛运用到肿瘤疾病研究中,产生了大量维数高、样本少的肿瘤基因表达谱数据。如何从海量的基因表达谱数据中发现和提取少量的具有分类识别能力且最小的冗余度的特征基因,挖掘出有用的信息和知识,更加全面的认识肿瘤的基因本质、获得对“肿瘤-基因”间关系的真实反映,对推进肿瘤学的基础研究和肿瘤的临床诊断与治疗,进一步研究肿瘤、发现肿瘤的致病机理是至关重要的作用。本文的主要研究是针对肿瘤基因表达谱的肿瘤分类特征基因选择,取得了如下的成果:1.根据肿瘤微阵列数据的特点,提出了一种基于相关性改进的SVM-RFE算法。算法引入相关性的评价基因的相互之间的关系,在寻求数据最小冗余的同时,考虑了如何提高特征选择的速度。在白血病微阵列数据集实验中证明,新方法在没有降低分类精度的情况下大大改进了标准SVM-RFE算法效率。2.由于传统了K-均值算法需要人为设置的聚类数量,然后再对基因表达谱数据进行聚类,而现实中基因表达谱数据的最佳聚类的数量是未知的。在本文中,我们利用数据内在的统计特性对传统的K-均值算法进行改进了,提出了启发式K-均值聚类算法,能根据基因表达谱数据内在的统计特性自我调整聚类的数量,得到比较好的聚类结果。实验结果表明该算法能根据基因表达谱的相似性把基因表达谱数据集分成次最佳的类数。3.在基因表达谱的特征基因选取中,如果选择单纯使用Filter算法或Wrapper算法具有明显的缺陷:Filter方法选取的特征具有高冗余性、分类精度低;Wrapper方法计算复杂度高。为了结合Filter、Wrapper和聚类算法的优点,本文提出了一种新颖的混合特征基因选择方法,Filter Clustering SVM-RFE方法。该算法参数设置方便,无须搜索,运行速度快,也不必事先指定精确的聚类数量(像常用的聚类算法那样)。在白血病和结肠癌数据集的分类特征基因选择实验中获得了很好的效果。