三维微阵列频繁闭模式挖掘算法的研究与实现

三维微阵列频繁闭模式挖掘算法的研究与实现

论文摘要

人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划。随着人类基因组计划的顺利实施,生物实验技术也在日新月异地进步,微阵列芯片技术正是其中最有代表性的一种。目前,微阵列芯片技术已经可以同时测量大量基因在多个样本上、在一系列时间点上的表达值,从而得到三维的微阵列数据集。实验技术的进步也带动了对实验结果进行信息挖掘技术的进步,三维频繁闭模式挖掘技术就是在这种情况下产生的。然而三维频繁闭模式的挖掘还是崭新的概念,对其挖掘技术的研究还处在起步的阶段。本文首先提出了一种新的三维频繁闭模式挖掘算法MFCC。MFCC算法采用降维的思想,首先将三维数据集切片为若干个二维数据集,并应用适当的二维频繁闭模式挖掘算法进行处理;再通过对二维切片上的结果进行相交,并结合有效的削减规则,快速得到所有三维频繁闭模式。MFCC算法的优点在于高效的降维技术既可以降低数据集的维数,从而能够利用已有的二维频繁闭模式挖掘算法,又不会产生大量的二维切片。为了进一步提高算法的性能,本文又提出了改进的算法MFCC+算法。MFCC+算法采用与MFCC算法相同的降维技术,在保留了MFCC算法优点的前提下通过使用高效的削减规则,在算法执行过程中削减掉所有的不封闭的模式,从而避免了结果的封闭性检验。实验结果表明,MFCC+算法的性能改进效果显著,改进后的算法性能优于以往的三维频繁闭模式挖掘算法。本文首先介绍相关的背景知识及以往的研究工作;然后依次提出了MFCC算法和MFCC+算法,并对算法的正确性进行了证明;最后通过实验对算法的性能进行了测试并作出相应的分析。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 基因芯片技术与微阵列数据集
  • 1.1.1 基因芯片技术概述
  • 1.1.2 微阵列技术及其应用
  • 1.2 数据挖掘技术在微阵列数据分析中的应用
  • 1.2.1 微阵列数据分析中的数据挖掘技术
  • 1.2.2 频繁模式挖掘技术在微阵列数据分析中的应用
  • 1.2.3 频繁模式挖掘技术的最新进展以及面临的挑战
  • 1.3 论文组织结构
  • 第二章 相关研究工作
  • 2.1 频繁模式挖掘技术概述
  • 2.1.1 基本概念
  • 2.1.2 从频繁模式到频繁闭模式
  • 2.1.3 从二维频繁闭模式到三维频繁闭模式
  • 2.2 二维频繁闭模式挖掘算法
  • 2.2.1 MAFIA算法
  • 2.2.2 CLOSET算法
  • 2.2.3 CARPENTER算法
  • 2.2.4 D-Miner算法
  • 2.3 研究前景展望以及面临的挑战
  • 2.4 本章小结
  • 第三章 三维频繁闭模式挖掘算法
  • 3.1 研究现状及存在的问题
  • 3.1.1 三维频繁闭模式的基本概念
  • 3.1.2 RSM算法
  • 3.1.3 CubeMiner算法
  • 3.1.4 现有三维频繁闭模式挖掘算法存在的不足
  • 3.2 MFCC算法
  • 3.2.1 相关术语及算法框架的提出
  • 3.2.2 二维切片挖掘
  • 3.2.3 三维频繁闭模式生成
  • 3.2.4 削减规则
  • 3.3 算法正确性证明
  • 3.4 本章小结
  • 第四章 改进的挖掘算法MFCC+
  • 4.1 MFCC算法的不足
  • 4.2 MFCC+算法框架的提出以及做出的改进
  • 4.3 MFCC+算法的削减规则
  • 4.3.1 削减规则的提出
  • 4.3.2 削减规则的正确性证明
  • 4.3.3 削减规则的实现技术
  • 4.4 算法正确性证明
  • 4.5 本章小结
  • 第五章 实验及结果分析
  • 5.1 实验环境及实验数据集
  • 5.2 改进算法性能测试
  • 5.3 改变阈值参数测试
  • 5.4 可扩展性测试
  • 5.4.1 改变数据集规模测试
  • 5.4.2 改变数据集密度测试
  • 5.5 本章小结
  • 第六章 结论
  • 6.1 本文工作总结
  • 6.2 今后工作展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    三维微阵列频繁闭模式挖掘算法的研究与实现
    下载Doc文档

    猜你喜欢