模糊聚类算法与时延共调控基因挖掘研究

论文摘要

随着DNA芯片技术被广泛应用到基因表达谱检测上,生物信息学领域产生了海量的基因表达数据。它为揭示基因间的调控模式、加深对基因相关功能的理解提供了重要条件。为了从如此大量的基因表达数据中发现有价值的知识及规律,人们结合统计分析、人工智能、机器学习等技术,提出了相应的数据挖掘方法。作为一种无监督的学习方法,聚类分析是数据挖掘研究领域的重要分支,是数据划分处理的主要方法。聚类的目标是把一个无标记类别的数据集按照某种相似性度量方法划分成不同的类别,使得不同类别间的数据特征差异尽可能的大,而同一类别间的数据尽可能拥有相似的数据特征。传统的聚类算法对于聚类的初始中心和噪声数据都较为敏感,并且相应的聚类效果评价函数容易收敛到局部极小值,因而导致相应数据集的划分精度不高。为了克服噪声数据对于数据划分的干扰,准确度量不同属性对聚类划分的不同贡献度,本文在一个改进的放松隶属度约束的模糊C均值聚类算法(IFCM)的基础上提出了一种基于高斯核的动态加权模糊聚类算法(WKIFCM)。实验表明新聚类算法能很好地反映各特征向量对于各个聚类的重要性,因而取得了比传统聚类算法更好的结果。基因间调控关系的变化往往导致相应的表达数据发生较大差异,通过聚类分析基因表达谱,可以找到协同表达基因及其规律,同时发现未知功能的基因。传统的基于距离/相关系数的相似性度量方法认为基因表达序列在相同的时间内应具有相同的变化趋势。但是基因间的延时共调控现象在真实世界中普遍存在,因而这些相似性度量方法无法有效度量基因间的时延表达特性。为了更加准确地刻画基因间的共调控关系,本文提出了一种新的相似性度量方法NDTWS：该方法通过在DTW算法(动态时间弯曲匹配算法)的基础上引入滑动窗口匹配算法和最大弯曲阙值,可以有效的处理时延调控基因间复杂的时延特性,准确刻画出具有相似表达曲线的共调控基因间的相关性。同时,本文将所提方法与可指定类数的仿射传播聚类APK相结合,得到新的共调控基因挖掘算法Ndtwsapk。新算法分别在人工数据集和真实基因表达数据集上进行测试,实验结果表明本文提出的算法能正确选出潜在的调控基因,得到更好的聚类效果。

论文目录

摘要

Abstract

第一章引言

1.1 课题研究背景与意义

1.2 课题研究目的

1.3 课题研究的主要工作

1.4 论文组织结构

第二章聚类分析在共调控基因挖掘的应用

2.1 基因表达数据及其特点

2.2 基因表达数据的相似性度量方法

2.2.1 距离度量方法

2.2.2 相关系数度量方法

2.2.3 非线性相关度量方法

2.3 基因表达数据的传统聚类算法

2.3.1 Kmeans算法

2.3.2 层次聚类算法

2.3.3 SOM聚类算法

2.3.4 模糊C均值聚类算法

2.3.5 双聚类算法BiCluseter

2.4 共调控基因聚类算法现状

2.5 共调控基因聚类算法存在的主要问题

2.6 本章小结

第三章基于核函数的改进的加权模糊C均值聚类算法

3.1 引言及研究动机

3.2 IFCM算法概述

3.3 模糊核聚类算法

3.2.1 Mercer核和高斯核函数

3.2.2 加权的改进模糊聚类算法（WKIFCM算法）

3.2.3 WKIFCM算法描述

3.4 实验及分析

3.4.1 高斯核参数选择

12人工数据集'>3.4.2 X₁₂人工数据集

3.4.3 真实数据集

3.5 本章小结

第四章一种动态时间弯曲距离的时延调控基因相似度量聚类方法

4.1 研究动机

4.2 DTW算法

4.3 改进的动态相似性度量方法NDTWS

4.3.1 问题的提出

4.3.2 算法的改进

4.4 基于NDTWS相似度的仿射传播聚类Ndtwsapk

4.5 实验结果与分析

4.5.1 人工合成数据

4.5.2 真实生物数据实验结果与分析

4.6 本章小结

总结与展望

总结

展望

参考文献

致谢

个人简历

在学期间研究成果及发表的学术论文

模糊聚类算法与时延共调控基因挖掘研究

论文摘要

论文目录

相关论文文献

猜你喜欢