基于基因表达谱的肿瘤分类特征基因选择研究

论文摘要

基因芯片技术因其能同时快速测量成千上万条基因的表达水平,被广泛地应用于基因组层次上研究细胞的基因表达模式。随着微阵列技术广泛运用到肿瘤疾病研究中,产生了大量维数高、样本少的肿瘤基因表达谱数据。如何从海量的基因表达谱数据中发现和提取少量的具有分类识别能力且最小的冗余度的特征基因,挖掘出有用的信息和知识,更加全面的认识肿瘤的基因本质、获得对“肿瘤-基因”间关系的真实反映,对推进肿瘤学的基础研究和肿瘤的临床诊断与治疗,进一步研究肿瘤、发现肿瘤的致病机理是至关重要的作用。本文的主要研究是针对肿瘤基因表达谱的肿瘤分类特征基因选择,取得了如下的成果:1.根据肿瘤微阵列数据的特点,提出了一种基于相关性改进的SVM-RFE算法。算法引入相关性的评价基因的相互之间的关系,在寻求数据最小冗余的同时,考虑了如何提高特征选择的速度。在白血病微阵列数据集实验中证明,新方法在没有降低分类精度的情况下大大改进了标准SVM-RFE算法效率。2.由于传统了K-均值算法需要人为设置的聚类数量,然后再对基因表达谱数据进行聚类,而现实中基因表达谱数据的最佳聚类的数量是未知的。在本文中,我们利用数据内在的统计特性对传统的K-均值算法进行改进了,提出了启发式K-均值聚类算法,能根据基因表达谱数据内在的统计特性自我调整聚类的数量,得到比较好的聚类结果。实验结果表明该算法能根据基因表达谱的相似性把基因表达谱数据集分成次最佳的类数。3.在基因表达谱的特征基因选取中,如果选择单纯使用Filter算法或Wrapper算法具有明显的缺陷:Filter方法选取的特征具有高冗余性、分类精度低;Wrapper方法计算复杂度高。为了结合Filter、Wrapper和聚类算法的优点,本文提出了一种新颖的混合特征基因选择方法,Filter Clustering SVM-RFE方法。该算法参数设置方便,无须搜索,运行速度快,也不必事先指定精确的聚类数量（像常用的聚类算法那样）。在白血病和结肠癌数据集的分类特征基因选择实验中获得了很好的效果。

论文目录

摘要

Abstract

第1章绪论

1.1 课题研究背景及意义

1.2 基因芯片技术

1.2.1 基因芯片类型

1.2.2 基因表达谱数据及其数据分析

1.3 基于基因表达谱数据的肿瘤分类特征基因选择

1.3.1 肿瘤基因表达谱数据分析的研究水平和现状

1.3.2 肿瘤分类特征基因选择面临的问题和挑战

1.4 论文内容、组织

第2章相关理论基础

2.1 支持向量机

2.2 K-均值聚类算法（K-means Clustering）

2.3 特征选择

2.3.1 特征选择的相关概念

2.3.2 FILTER 特征选择

2.3.3 Wrapper 特征选择

2.3.4 特征选择的典型算法

第3章基于SVM 和相关性的肿瘤特征基因选择方法

3.1 引言

3.2 相关工作

3.3 支持向量机和SVM-RFE 算法

3.4 实验方法

3.4.1 噪声基因过滤

3.4.2 基于相关性改进的SVM-RFE 算法

3.5 实验结果

3.5.1 实验数据集

3.5.2 实验结果

3.6 本章小结

第4章基于启发式K-MEANS 聚类算法分析肿瘤基因表达谱数据

4.1 引言

4.2 相关工作

4.3 基因表达谱的相似性度量标准

4.4 启发式K-均值聚类算法

4.4.1 相关统计理论

4.4.2 K-均值聚类算法

4.4.3 启发式K-均值聚类算法

4.5 实验结果

4.5.1 数据预处理

4.5.2 噪声基因过滤

4.5.3 聚类结果分析

4.6 本章小结

第5章一种混合的肿瘤分类特征基因提取方法

5.1 引言

5.2 问题的提出

5.2.1 基因冗余

5.2.2 去除冗余特征的理论基础

5.3 相关工作

5.4 特征基因选择方法

5.4.1 过滤基因

5.4.2 冗余基因的去除

5.4.3 SVM-RFE 选取强相关特征

5.5 实验结果

5.5.1 实验数据

5.5.2 结果分析

5.6 本章小结

结论与展望

参考文献

攻读硕士学位期间所发表的学术论文

致谢

基于基因表达谱的肿瘤分类特征基因选择研究

论文摘要

论文目录

相关论文文献

猜你喜欢