论文摘要
随着DNA芯片技术被广泛应用到基因表达谱检测上,生物信息学领域产生了海量的基因表达数据。它为揭示基因间的调控模式、加深对基因相关功能的理解提供了重要条件。为了从如此大量的基因表达数据中发现有价值的知识及规律,人们结合统计分析、人工智能、机器学习等技术,提出了相应的数据挖掘方法。作为一种无监督的学习方法,聚类分析是数据挖掘研究领域的重要分支,是数据划分处理的主要方法。聚类的目标是把一个无标记类别的数据集按照某种相似性度量方法划分成不同的类别,使得不同类别间的数据特征差异尽可能的大,而同一类别间的数据尽可能拥有相似的数据特征。传统的聚类算法对于聚类的初始中心和噪声数据都较为敏感,并且相应的聚类效果评价函数容易收敛到局部极小值,因而导致相应数据集的划分精度不高。为了克服噪声数据对于数据划分的干扰,准确度量不同属性对聚类划分的不同贡献度,本文在一个改进的放松隶属度约束的模糊C均值聚类算法(IFCM)的基础上提出了一种基于高斯核的动态加权模糊聚类算法(WKIFCM)。实验表明新聚类算法能很好地反映各特征向量对于各个聚类的重要性,因而取得了比传统聚类算法更好的结果。基因间调控关系的变化往往导致相应的表达数据发生较大差异,通过聚类分析基因表达谱,可以找到协同表达基因及其规律,同时发现未知功能的基因。传统的基于距离/相关系数的相似性度量方法认为基因表达序列在相同的时间内应具有相同的变化趋势。但是基因间的延时共调控现象在真实世界中普遍存在,因而这些相似性度量方法无法有效度量基因间的时延表达特性。为了更加准确地刻画基因间的共调控关系,本文提出了一种新的相似性度量方法NDTWS:该方法通过在DTW算法(动态时间弯曲匹配算法)的基础上引入滑动窗口匹配算法和最大弯曲阙值,可以有效的处理时延调控基因间复杂的时延特性,准确刻画出具有相似表达曲线的共调控基因间的相关性。同时,本文将所提方法与可指定类数的仿射传播聚类APK相结合,得到新的共调控基因挖掘算法Ndtwsapk。新算法分别在人工数据集和真实基因表达数据集上进行测试,实验结果表明本文提出的算法能正确选出潜在的调控基因,得到更好的聚类效果。