论文摘要
人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划。随着人类基因组计划的顺利实施,生物实验技术也在日新月异地进步,微阵列芯片技术正是其中最有代表性的一种。目前,微阵列芯片技术已经可以同时测量大量基因在多个样本上、在一系列时间点上的表达值,从而得到三维的微阵列数据集。实验技术的进步也带动了对实验结果进行信息挖掘技术的进步,三维频繁闭模式挖掘技术就是在这种情况下产生的。然而三维频繁闭模式的挖掘还是崭新的概念,对其挖掘技术的研究还处在起步的阶段。本文首先提出了一种新的三维频繁闭模式挖掘算法MFCC。MFCC算法采用降维的思想,首先将三维数据集切片为若干个二维数据集,并应用适当的二维频繁闭模式挖掘算法进行处理;再通过对二维切片上的结果进行相交,并结合有效的削减规则,快速得到所有三维频繁闭模式。MFCC算法的优点在于高效的降维技术既可以降低数据集的维数,从而能够利用已有的二维频繁闭模式挖掘算法,又不会产生大量的二维切片。为了进一步提高算法的性能,本文又提出了改进的算法MFCC+算法。MFCC+算法采用与MFCC算法相同的降维技术,在保留了MFCC算法优点的前提下通过使用高效的削减规则,在算法执行过程中削减掉所有的不封闭的模式,从而避免了结果的封闭性检验。实验结果表明,MFCC+算法的性能改进效果显著,改进后的算法性能优于以往的三维频繁闭模式挖掘算法。本文首先介绍相关的背景知识及以往的研究工作;然后依次提出了MFCC算法和MFCC+算法,并对算法的正确性进行了证明;最后通过实验对算法的性能进行了测试并作出相应的分析。
论文目录
摘要ABSTRACT第一章 绪论1.1 基因芯片技术与微阵列数据集1.1.1 基因芯片技术概述1.1.2 微阵列技术及其应用1.2 数据挖掘技术在微阵列数据分析中的应用1.2.1 微阵列数据分析中的数据挖掘技术1.2.2 频繁模式挖掘技术在微阵列数据分析中的应用1.2.3 频繁模式挖掘技术的最新进展以及面临的挑战1.3 论文组织结构第二章 相关研究工作2.1 频繁模式挖掘技术概述2.1.1 基本概念2.1.2 从频繁模式到频繁闭模式2.1.3 从二维频繁闭模式到三维频繁闭模式2.2 二维频繁闭模式挖掘算法2.2.1 MAFIA算法2.2.2 CLOSET算法2.2.3 CARPENTER算法2.2.4 D-Miner算法2.3 研究前景展望以及面临的挑战2.4 本章小结第三章 三维频繁闭模式挖掘算法3.1 研究现状及存在的问题3.1.1 三维频繁闭模式的基本概念3.1.2 RSM算法3.1.3 CubeMiner算法3.1.4 现有三维频繁闭模式挖掘算法存在的不足3.2 MFCC算法3.2.1 相关术语及算法框架的提出3.2.2 二维切片挖掘3.2.3 三维频繁闭模式生成3.2.4 削减规则3.3 算法正确性证明3.4 本章小结第四章 改进的挖掘算法MFCC+4.1 MFCC算法的不足4.2 MFCC+算法框架的提出以及做出的改进4.3 MFCC+算法的削减规则4.3.1 削减规则的提出4.3.2 削减规则的正确性证明4.3.3 削减规则的实现技术4.4 算法正确性证明4.5 本章小结第五章 实验及结果分析5.1 实验环境及实验数据集5.2 改进算法性能测试5.3 改变阈值参数测试5.4 可扩展性测试5.4.1 改变数据集规模测试5.4.2 改变数据集密度测试5.5 本章小结第六章 结论6.1 本文工作总结6.2 今后工作展望参考文献致谢攻读硕士期间发表的论文
相关论文文献
标签:生物信息学论文; 微阵列论文; 三维频繁闭模式论文; 算法论文;