论文摘要
粗糙集理论是一种新型的处理模糊性和不确定性知识的数学工具,作为一种新的知识获取方法,粗糙集理论能有效地分析不精确、不一致、不完全的各种信息。它无需提供待处理数据集之外的任何先验信息,对问题的不确定性的描述和处理比较客观。针对基因表达数据样本少、维数高的特点,粗糙集理论依自身优点能对其进行有效的分析处理。把粗糙集理论应用于特征基因选择是一个具有前沿性和拓展性的研究课题。本文通过对粗糙集理论的研究分析并将其运用于特征基因选择领域,得到了两种基于粗糙集的特征基因选择方法:(1)基于粗糙集属性最大依赖度的特征基因选择。通过研究粗糙集理论的属性重要性和属性依赖性对数据的分析方法,得到了一种基于粗糙集的属性最大依赖度(Maximum Dependency of Attributes Based on Rough Sets,简称MDA-RS)算法。将MDA-RS算法应用于特征基因选择中,其主要思想是:首先利用启发式k-均值聚类算法对基因进行聚类分析得到类数为k的基因子集,然后用MDA-RS选出每类的主基因,最后汇合每类的主基因获得分类的特征基因组。(2)基于粗糙遗传算法的特征基因选择。将粗糙集理论和遗传算法相结合形成了一种基于粗糙集的启发式遗传算法,简称粗糙遗传算法(rough genetic algorithm,简称RGA)。并将RGA算法运用于基因选择中,主要内容是:利用粗糙集中核属性作为限制来对个体进行编码从而优化初始群体;以粗糙集的属性重要性作为启发信息重新构造变异算子;在遗传操作中加入了修正算子,对种群的修正可以在一定程度上提高个体适应度。通过在公开的基因表达数据集上做仿真实验,检验本文的特征基因选择算法。结果表明本文方法是可行、有效的,能够提取出数量较少具有良好分类能力的特征基因。