DNA微阵列数据的变量选择方法研究

论文摘要

近年来,随着DNA微阵列技术的迅猛发展,产生了大量基因表达谱数据,并被广泛应用于癌症的诊断与分型。DNA微阵列技术可以在一次实验中记录在不同样本条件下成千上万的基因表达数据。面对如此庞大的数据矩阵,生物信息学方法如：聚类分析,判别分析以及回归分析等方法被用来解析及挖掘数据中所蕴含的知识。由于基因表达数据本身所特有的小样本,高维性特点,要求在建立模型之前首先对数据进行变量挑选,本文主要对不同的变量选择方法进行了研究以及比较,并提出了一种新的变量选择方法,具体内容为：1.在基于模型聚类分析法(MPA)以及无信息变量消除法(UVE)的基础上,本文提出了一种新的变量选择方法,Noise Incorporated Subwindow Permutation Analysis(NISPA),并将这种方法与支持向量机相结合。NISPA不仅解决了常见的变量选择方法难以克服的模型稳定性问题,并且更为科学的以噪音变量为参照标准来划分变量,而不是常见的人为划分。该方法的核心在于使用添加的噪音变量的重要性分布作为参照标准来评估每一个基因变量,将所有变量分为三大类,分别为：有信息变量,无信息变量(噪音)以及干扰变量。与传统的变量选择方法只能鉴定出有信息变量以及噪音的特点相比,NISPA更是首次辨识出来对模型的影响比噪音更差的一类变量,即干扰变量。结合有信息变量以及干扰变量,更能全面了解疾病的病理途径,对癌症的准确诊断与分型带来可能。本文采用了两个公开发表的癌症数据Colon以及Estrogen来测试NISPA的运行效果,结果显示经由NISPA筛选出来的有信息变量可以显著提高模型的预测准确率,是一种较好的变量选择方法。2.本文从以下三个方面进一步对NISPA算法进行了分析：(1)对比Q=1的NISPA与常见的单变量选择方法,如：Pearson相关系数法、Spearman秩相关系数法,结果表明,Q=1的NISPA与单变量选择方法在不同的数据上具有不同的一致性程度,且Q=1的NISPA筛选出的变量优于其他单变量选择方法；(2)对比Q=1的NISPA与最优Q值(Q>1)的NISPA,发现这两种条件下计算出的变量重要性值具有较大差异,且最优Q值条件下筛选出的变量能显著提高模型预测准确率,表明变量与变量之间的相互作用对最终挑选出的有信息变量影响非常大；(3)对比NISPA与其他的多变量选择方法,如：基于序列前向选择的变量选择方法(SFS)以及迭代特征消除法(RFE),留一交叉验证结果表明NISPA具有较强的竞争能力,是一种较好的变量选择方法替代法。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 DNA微阵列技术与基因表达数据

1.1.1 DNA微阵列技术简介

1.1.1.1 原位合成技术

1.1.1.2 合成点样法

1.1.2 基因表达数据

1.1.2.1 基因表达数据的获得

1.1.2.2 基因表达数据特点

1.2 模式识别方法

1.2.1 变量选择方法

1.2.1.1 变量选择方法分类

1.2.1.2 基于模型聚类分析（MPA）的变量选择方法

1.2.1.3 基于基因表达谱的变量选择方法

1.2.2 判别分析法—SVMs

1.2.2.1 SVM的线性判别分析

1.2.2.2 SVM的非线性判别分析

1.3 本论文主要工作

1.3.1 课题研究内容

1.3.2 课题研究难点

1.3.3 课题研究创新

第二章 NISPA变量选择方法

2.1 引言

2.2 理论和方法

2.2.1 基本理论

2.2.1.1 基于PLS的无信息变量消除法（UVE-PLS）

2.2.1.2 基于蒙特卡罗的无信息变量消除法（MC-UVE）

2.2.2 NISPA方法

2.2.2.1 变量空间随机抽样以及噪音的添加

2.2.2.2 基于线性SVM建立子模型

2.2.2.3 统计分析变量的重要性分布

2.3 结果与讨论

2.3.1 Colon数据

2.3.2 Estrogen数据

2.4 本章小结

第三章变量选择方法之间的比较

3.1 引言

3.2 基本理论

3.2.1 皮尔逊相关系数

3.2.2 Spearman秩相关系数

3.2.3 基于序列前向选择的变量选择方法

3.2.4 基于支持向量机的递归特征消除法

3.3 实验步骤

3.3.1 对比NISPA Q=1与单变量选择方法的相关性

3.3.2 对比Q=1的NISPA与最优Q值的NISPA的变量重要性值

3.3.3 对比NISPA与其他多变量选择方法

3.4 结果与讨论

3.4.1 对比NISPA Q=1与单变量选择方法的相关性

3.4.2 对比Q=1的NISPA与最优Q值的NISPA的变量重要性值

3.4.3 对比NISPA与其他多变量选择方法

3.5 本章小结

结论与展望

参考文献

致谢

攻读学位期间主要研究成果

DNA微阵列数据的变量选择方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢