
论文摘要
摘要:肿瘤是世界上危及人类身体健康的主要恶性疾病之一。肿瘤的早期发现,对病人的治疗有着非常重要的意义。基因芯片技术的出现和发展,促进了肿瘤在分子水平上的研究。从海量的肿瘤基因表达谱数据中,挖掘出有用的相关知识和信息,可以更加全面地认识肿瘤的基因本质,更加深入地了解肿瘤与基因之间的关系,对推进肿瘤的临床诊断和治疗和研制新药物有着至关重要的作用。本文针对肿瘤基因表达谱数据小样本、高维数、非线性等特点,基于机器学习由Co-training的思想,建立了以AdaBoost算法为基础,分别级联了SVM分类算法和单基因弱分类算法的模型。在通常情况下,影响学习和分类效果的主要是被错误分类的样本,AdaBoost-SVM算法通过重点训练被分类器错误分类的样本来减少错误分类率;主要思路是:AdaBoost-SVM重点标记被错误分类的样本权重,并且在反复迭代中多次学习该类样本,以减少被错误分类的样本个数,从而达到降低错误分类率的目的。经过对真实的结肠癌基因表达谱数据进行大量实验,从2000个基因中找出了20个基因作为分类的特征基因,通过交叉实验,取得了不错的分类效果。本文最后并对AdaBoost-SVM进行改进,可以将已知的先验知识加入到分类模型中,从而提高分类的可靠性。
论文目录
致谢摘要ABSTRACT1 引言1.1 研究背景1.2 研究的意义1.3 基因表达谱数据分析面临的问题1.4 国内外研究现状1.5 论文的主要工作及章节安排2 相关技术理论介绍2.1 基因芯片与肿瘤研究2.1.1 肿瘤基因表达谱分析2.1.2 肿瘤分子分类、分型和预后2.2 特征基因选择2.2.1 特征选择2.2.2 数据噪声的来源2.2.3 数据噪声预处理2.2.4 特征选择算法3 支持向量机理论3.1 支持向量机(SVM)概述3.2 线性可分SVM数学模型的建立3.3 两类线性可分SVM的求解3.3.1 线性SVM问题的对偶问题及其求解3.3.2 线性SVM的Wolfe对偶3.4 非线性SVM—核方法3.4.1 特征空间的非线性影射和核函数3.4.2 核函数存在的条件和常用核函数4 AdaBoost算法4.1 AdaBoost算法概述4.2 Adaboost算法具体实现步骤4.3 AdaBoost训练误差分析5 基于SVM和AdaBoost的肿瘤基因表达谱分类5.1 AdaBoost-SVM算法设计5.1.1 构造基于SVM的弱分类器5.1.2 分类器更新5.1.3 利用AdaBoost算法生成强分类器5.2 实验及结果分析5.2.1 实验数据集5.2.2 数据预处理5.2.3 实验结果及分析6 结论参考文献作者简历学位论文数据集
相关论文文献
标签:基因表达谱论文; 特征基因提取论文; 机器学习论文;
基于SVM和AdaBoost的肿瘤基因表达谱分类研究
下载Doc文档