论文摘要
随着基因微阵列技术的高速发展,人们可以同时快速地测量成千上万个基因的表达水平。在肿瘤疾病研究中,通过获取基因微阵列数据可以为癌症诊断、治疗、预测提供新的手段。但是,原始的基因微阵列数据具有小样本、高维度特点,直接在此数据中进行分析处理是不现实的。因此,有必要在这些海量的基因数据中,找出对疾病有鉴别作用的基因,提高肿瘤诊断准确性。传统的统计学方法在基因选择中,表现出了较大的局限性。支持向量机(SVM)以统计学习理论为基础,采用结构风险最小化原则,能较好地解决小样本数据学习问题;另外,支持向量机采用核函数技术,能够解决数据非线性可分的问题。因此,在基因选择算法中,支持向量机表现出更强的适应性和优越性。本文基于支持向量机,对基因选择算法进行研究,完成的主要工作如下:1.介绍了基因微阵列数据的制作、特点及应用,分析了支持向量机的原理,并详细研究了SVM-RFE基因选择算法。2.在SVM-RFE算法的基础上,引入了序列前向选择方法。通过以组为单位同时进行特征消去和序列前向选择操作,加快了算法的运行速度,提升了分类性能。3.研究了基于自适应策略选取支持向量机核参数的方法。算法首先利用样本之间的2范数距离设置初始参数值,然后根据进行递归特征消去后重构的样本对核参数进行自动运算更新。4.提出了多SVM混合分类模型。利用不同参数下的多个SVM分别进行基因选择,然后合并各分类器选择出来的基因子集,最后再利用SVM-RFE得到最优的基因子集。算法通过对参数选取一组值代替仅选择一个值,克服了单个参数值选取困难的问题,能够得到更高的分类准确率。在三个公开的基因微阵列数据集上进行了实验,提出的算法能够得到更佳的分类性能。
论文目录
摘要Abstract第1章 绪论1.1 研究背景1.2 DNA微阵列数据1.2.1 DNA微阵列数据的制作1.2.2 DNA微阵列数据的优点与应用1.2.3 DNA微阵列数据的挑战1.3 基因选择1.3.1 基于Filter的基因选择方法1.3.2 基于Wrapper的基因选择方法1.4 本文的主要工作第2章 基于支持向量机的递归特征消去方法2.1 支持向量机2.1.1 统计学习理论2.1.2 SVM算法原理2.1.3 SVM的优点2.2 SVM-RFE递归特征消去算法2.3 实验结果与分析2.3.1 实验数据2.3.2 传统统计学方法2.3.3 实验结果与分析2.4 本章小结第3章 基于SVM-RFE-SFS的基因选择算法3.1 SVM-RFE的问题3.2 序列后向选择方法和序列前向选择方法3.3 SVM-RFE-SFS基因选择算法3.3.1 一阶差分基因组3.3.2 SVM-RFE-SFS算法3.4 实验结果与分析3.4.1 参数选择3.4.2 实验结果与分析3.5 本章小结第4章 自适应核宽度参数选取算法4.1 非线性支持向量机4.2 SVM核参数的选择4.3 自适应核宽度方法4.3.1 2范数核宽度参数4.3.2 自适应核宽度参数选择4.4 实验结果与分析4.4.1 留一交叉验证法4.4.2 LOOCV实验结果与分析4.4.3 交叉验证结果与分析4.5 本章小结第5章 混合SVM-RFE-SFS基因选择算法5.1 SVM-RFE-SFS中K值的影响5.2 混合SVM-RFE-SFS模型5.3 实验结果与分析5.3.1 参数选取5.3.2 LOOCV实验结果与分析5.3.3 交叉验证结果与分析5.4 本章小结总结与展望参考文献致谢附录A 攻读学位期间所发表的学术论文目录
相关论文文献
标签:基因微阵列论文; 基因选择论文; 支持向量机论文; 序列前向选择论文; 核方法论文;