基于关联规则的基因芯片数据挖掘与应用

基于关联规则的基因芯片数据挖掘与应用

论文摘要

人类基因组草图(Human Genome Draft,HGD)的绘制完成标志着现代生命科学研究从基因组时代进入了后基因组时代,研究的重心由结构基因组学转向功能基因组学,基因彼此之间的相互作用、相互影响越来越多地受到研究者的关注。基因芯片作为一种高通量的检测技术,可以同时检测成千上万条基因的表达水平,成为研究基因与基因之间相互作用关系的强大工具。随着基因芯片大量数据的产生,数据挖掘成为从基因芯片表达数据中解读基因相关信息的重要技术手段。本研究针对目前关联规则挖掘技术用于基因芯片表达数据分析时存在的问题,从三个方面进行了比较全面和深入的研究:时序基因芯片表达数据的跨事务关联规则挖掘、传统关联规则中基因表达状态信息缺失问题及大量关联规则的聚类问题等。本文的主要内容及贡献包括:(1)时序基因芯片表达数据中的跨事务关联规则挖掘研究为了解决传统关联规则忽视数据中的时间信息以及无法对基因的表达状态进行动态预测的问题,本研究提出将跨事务关联规则挖掘技术引入到时序基因芯片表达数据的分析之中,并对跨事务关联规则进行了详细介绍。结合生物学数据库,包括Gene Ontology基因注释数据库、iHOP数据库、DAVID生物信息学资源数据库等,对挖掘出来的跨事务关联规则进行分析,结果显示跨事务关联规则能够有效地挖掘时序基因芯片表达数据中的隐含信息,产生的关联规则符合生物学背景,合理地描述基因之间的动态表达行为。因此,跨事务关联规则为基因功能的预测提供了新的手段和方法。(2)传统关联规则中基因表达状态信息缺失问题研究通过对传统关联规则中基因表达状态信息缺失这一问题的深入分析,本研究设计了一种新型的关联规则类型——差异表达关联规则(Differential Expression Association Rules,DEAR),并给出了基本定义及相关概念。为了能够有效地挖掘差异表达关联规则,本文提出了一种算法——差异表达关联规则矩阵算法(Differential Expression Association RulesMatrix Algorithm,DEARM算法),并对进行了详细地阐述。实验结果表明,差异表达关联规则在发现基因表达模式及控制冗余规则产生方面要优于传统关联规则。差异表达关联规则作为一种新的关联规则类型,是对关联规则挖掘内容的丰富,将有助于研究人员从基因芯片表达数据中揭示基因之间隐含的表达关系。(3)大量关联规则的聚类研究关联规则挖掘通常会推导出大量的规则,这给后期的分析与利用带来了巨大的障碍。本研究针对这一现实问题,提出了采用聚类分析对关联规则进行后期处理。为了更有效地对关联规则进行聚类,本文提出了新的关联规则相似性度量方法——内容结构加权度量,从关联规则的结构及内容上全面反映关联规则的相似性,克服了已有度量方法的缺陷只注重内容方面的缺陷。本文将聚类结果与生物学数据库Gene Ontology相结合进行分析,从生物学的角度说明了同一个子类中的关联规则所涉及的基因有着相似或者相关的生物学基础,体现了聚类在关联规则后期分析处理中的价值。因此,聚类分析将为研究才从关联规则中发现感兴趣的模式提供重要的、可视化的技术手段。

论文目录

  • ABSTRACT
  • 摘要
  • 第一章 绪论
  • 1.1 数据挖掘
  • 1.1.1 数据挖掘的产生背景
  • 1.1.2 数据挖掘的概念
  • 1.1.3 数据挖掘的任务
  • 1.2 关联规则挖掘
  • 1.2.1 关联规则挖掘的提出
  • 1.2.2 关联规则挖掘的分类
  • 1.2.3 关联规则挖掘的应用
  • 1.3 基因芯片数据
  • 1.3.1 基因表达
  • 1.3.2 基因芯片原理
  • 1.3.3 基因表达矩阵
  • 1.3.4 基因芯片数据的分析
  • 1.4 本文主要研究内容及结构安排
  • 参考文献
  • 第二章 关联规则挖掘的概念与经典算法
  • 2.1 基本概念
  • 2.2 项集的性质
  • 2.3 关联规则挖掘的步骤
  • 2.4 关联规则挖掘算法分类
  • 2.5 关联规则挖掘经典算法——APRIORI 算法
  • 2.5.1 产生频繁项集
  • 2.5.2 产生强关联规则
  • 2.6 小结
  • 参考文献
  • 第三章 从时序基因芯片数据中挖掘基因表达跨事务关联规则
  • 3.1 前言
  • 3.2 跨事务关联规则挖掘
  • 3.2.1 基本概念
  • 3.2.2 跨事务关联规则挖掘步骤
  • 3.2.3 E-Apriori 算法
  • 3.2.4 关联规则筛选
  • 3.3 时序基因芯片数据
  • 3.3.1 时序基因芯片
  • 3.3.2 基因表达数据离散化处理
  • 3.3.3 离散化数据的哑变量处理
  • 3.4 实验与结果
  • 3.4.1 实验数据来源
  • 3.4.2 实验数据预处理
  • 3.4.3 跨事务关联规则挖掘结果
  • 3.4.4 基因关联网络图
  • 3.5 讨论
  • 参考文献
  • 第四章 从基因芯片数据中挖掘差异表达关联规则
  • 4.1 前言
  • 4.2 关联规则挖掘面临的问题
  • 4.2.1 数据属性的巨大差异
  • 4.2.2 数据离散化方式
  • 4.2.3 经典关联规则中信息的缺失
  • 4.3 一种新型关联规则类型——差异表达关联规则
  • 4.3.1 经典关联规则中信息缺失的原因分析
  • 4.3.2 差异表达关联规则的概念
  • 4.4 挖掘差异表达关联规则的矩阵算法
  • 4.4.1 产生离散化的表达矩阵
  • 4.4.2 产生附加表达关系的频繁基因集
  • 4.4.3 产生差异表达关联规则
  • 4.5 实验与分析
  • 4.5.1 试验数据及相关设置
  • 4.5.2 频繁项集结果分析
  • 4.5.3 差异表达关联规则结果分析
  • 4.5.4 实验结果综合分析
  • 4.6 讨论
  • 参考文献
  • 第五章 关联规则的聚类研究
  • 5.1 前言
  • 5.2 聚类分析
  • 5.2.1 聚类分析的数学模型
  • 5.2.2 聚类分析中的数据结构
  • 5.2.3 对象间的相似性度量
  • 5.2.4 类间距离度量
  • 5.3 关联规则的相似性度量研究
  • 5.3.1 相关研究
  • 5.3.2 关联规则之间的差异
  • 5.3.3 项集的相似性
  • 5.3.4 规则的结构相似性
  • 5.3.5 规则的内容相似性
  • 5.3.6 规则的相似性
  • 5.3.7 关联规则集的相似性
  • 5.4 实验结果与分析
  • 5.4.1 试验数据及预处理
  • 5.4.2 聚类分析使用的关联规则
  • 5.4.3 关联规则聚类分析结果
  • 5.5 讨论
  • 参考文献
  • 第六章 总结与展望
  • 6.1 本文工作总结
  • 6.2 本文的贡献与创新点
  • 6.3 进一步的研究工作
  • 作者读博士期间发表、录用及修改的论文
  • 致谢
  • 附录1:差异表达关联规则挖掘源程序
  • 附录2:图表索引
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于关联规则的基因芯片数据挖掘与应用
    下载Doc文档

    猜你喜欢