面向生物数据的关联规则挖掘算法及其应用研究

面向生物数据的关联规则挖掘算法及其应用研究

论文摘要

随着基因组和蛋白质组研究的进展,以及现代生物技术的快速发展,由高通量技术产生了海量生物数据,这为揭开生命奥秘提供了数据基础。生物数据种类丰富,高通量,维数高,具有异构易变的特性,远远超出传统的分析方法的能力,生物数据的分析成为当今生物学研究的瓶颈,对其处理、挖掘、分析和理解的要求日益迫切。目前生物数据分析中存在着一些问题,例如,数据分析采用的算法模型有越来越复杂的趋势,被用于数据分析的黑盒算法获得的分析结果难以作出生物解释等。而生物信息学研究的根本目的就是利用生物数据,解释生命现象,发掘生命规律。关联规则是一种重要的数据挖掘技术,利用该技术从生物数据中挖掘获得的模式即具有生物学上的意义(重要性),又具有数学上的重要性(可发现性),且结构透明,具有良好的可解释性。本文主要对面向生物数据的关联规则挖掘算法及其应用进行了研究,其主要研究内容包括:(1)多相关关联规则挖掘算法及其应用研究生物数据中蕴含着丰富的内涵,仅利用传统的关联规则挖掘,一些有意义的模式会被丢失而无法获得,为此,本文提出了一种新形式的关联规则一多相关关联规则,在给出多相关关联规则形式化定义的基础上,对有用多相关关联规则的挖掘准则进行了研究,并给出了一个挖掘算法,并且利用多相关关联规则对蛋白质结构数据进行了分析,从中得到了很多有用的规则,在其它两个数据集上也进行了实验,得到了一些新颖的知识。(2)利用定量关联规则分析蛋白质结构数据的研究1961年Anfinsen提出蛋白质分子的一级序列完全决定其空间结构的论断,对于这个假定,我们需要分析如下几个问题:不同的氨基酸对不同的蛋白质空间结构形成是否具有不同的倾向性?蛋白质的氨基酸序列是否是随机的?序列中是否存在着一些氨基酸共生模式?这些模式是否对不同空间结构的形成具有不同的倾向性?目前开展的大部分研究是基于氨基酸序列预测蛋白质各位点的空间结构,主要是定性研究,利用定量方法分析不同氨基酸对形成不同蛋白质结构的倾向性的研究却较少,本文提出利用定量关联规则分析蛋白质的氨基酸构成和蛋白质结构形成间的关联关系,获得了很多有用的规则,这些规则对人工合成蛋白质分子具有参考价值。(3)聚类和关联规则挖掘在基因表达数据分析中的应用研究由于基因表达数据具有高维低样本的特点,直接对基因表达数据进行关联规则挖掘,实际上是不可行的。为此,本文将聚类和关联规则挖掘相结合,首先对基因表达数据进行聚类分析,得到若干基因簇,实现了分析数据的降维,然后对每个基因簇中的表达数据进行离散化,将每个基因离散化为7个项目,然后进行关联规则挖掘,得到了大量的关联规则,得到的这些关联规则不仅提供了基因之间的调控方向,而且还提供了基因之间调控强度的信息。(4)从肿瘤基因表达数据挖掘分类规则的研究基于关联规则的分类研究是关联规则挖掘研究的一个热点,目前这方面也已经开展了大量的研究工作。由于肿瘤基因表达数据中的样本具有高维低样本的特点,所以很难直接应用传统的关联规则挖掘算法构建分类器,因此本文提出了一种直接从肿瘤基因表达数据挖掘分类规则的方法,这种方法首先从数据中抽取分类特征,然后基于分类特征产生分类规则,基于这些分类规则按照置信度最高的原则进行样本类别预测,实验表明,该方法不仅具有良好的预测精度,并且相对于黑盒算法来说,具有良好的可解释性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 生物数据的特点
  • 1.1.2 生物数据分析中存在的问题
  • 1.1.3 生物数据中的关联规则挖掘研究
  • 1.2 本文的研究内容和创新之处
  • 1.2.1 研究内容
  • 1.2.2 创新之处
  • 1.3 论文的结构
  • 第二章 相关知识
  • 2.1 数据挖掘
  • 2.1.1 数据挖掘的概念
  • 2.1.2 数据挖掘的功能
  • 2.2 关联规则挖掘
  • 2.2.1 关联规则挖掘问题
  • 2.2.2 关联规则挖掘的扩展
  • 2.2.3 关联规则挖掘的应用
  • 2.3 生物信息学
  • 2.4 蛋白质结构数据
  • 2.4.1 蛋白质
  • 2.4.2 蛋白质结构
  • 2.4.3 蛋白质结构数据库
  • 2.5 基因表达数据
  • 2.5.1 基因表达
  • 2.5.2 基因芯片
  • 第三章 多相关关联规则挖掘及其应用研究
  • 3.1 引言
  • 3.2 关联规则的形式化定义
  • 3.3 多相关关联规则
  • 3.3.1 多相关关联规则的形式化定义
  • 3.3.2 有用多相关关联规则挖掘准则
  • 3.3.3 有用多相关关联规则挖掘算法
  • 3.3.4 与其它形式关联规则的关系
  • 3.4 实验
  • 3.4.1 在retail和mushroom数据集上的实验
  • 3.4.2 在蛋白质结构数据上的实验
  • 3.5 本章小结
  • 第四章 利用定量关联规则分析蛋白质结构数据的研究
  • 4.1 引言
  • 4.2 定量关联规则挖掘
  • 4.2.1 定量关联规则的挖掘方法
  • 4.2.2 定量属性离散化
  • 4.3 从蛋白质结构数据中挖掘定量关联规则
  • 4.3.1 蛋白质结构数据预处理
  • 4.3.2 挖掘定量关联规则
  • 4.4 实验结果与讨论
  • 4.5 本章小结
  • 第五章 聚类和关联规则挖掘在基因表达数据分析中的应用研究
  • 5.1 引言
  • 5.2 cDNA基因芯片
  • 5.3 研究现状与存在的问题
  • 5.4 改进的分析策略
  • 5.4.1 聚类
  • 5.4.2 数据离散化
  • 5.4.3 关联规则挖掘
  • 5.4.4 数据分析流程
  • 5.5 实验结果
  • 5.6 本章小结
  • 第六章 从肿瘤基因表达数据中挖掘分类规则的研究
  • 6.1 引言
  • 6.2 抽取实验数据集
  • 6.3 分类特征选择
  • 6.4 分类规则产生
  • 6.5 构建分类器
  • 6.6 实验
  • 6.7 本章小结
  • 第七章 总结和展望
  • 7.1 本文的工作
  • 7.2 本文的贡献
  • 7.3 进一步的工作
  • 参考文献
  • 附录A 插图索引
  • 附录B 表格索引
  • 致谢
  • 在读期间完成的学术论文
  • 相关论文文献

    • [1].药品检验中微生物数据偏差的实验室调查[J]. 中国药师 2015(11)
    • [2].海量生物数据异质性分析与整合技术[J]. 农业网络信息 2008(10)
    • [3].基于IPFS生物数据的存储传输[J]. 网络空间安全 2019(03)
    • [4].基于Hyperledger Fabric的生物数据安全管理[J]. 网络空间安全 2019(04)
    • [5].基于统计模型的生物数据复原配准算法比较[J]. 西北大学学报(自然科学版) 2008(03)
    • [6].高考生物数据计算题解法总结[J]. 中学生理科应试 2014(08)
    • [7].基于分治法的海量生物数据处理的研究与应用[J]. 信息与电脑(理论版) 2014(04)
    • [8].本期专论导读[J]. 医学信息学杂志 2013(11)
    • [9].基于超图的骨生物数据可视化[J]. 计算机辅助设计与图形学学报 2011(12)
    • [10].学习分析中的生物数据表征——眼动与多模态技术应用前瞻[J]. 电化教育研究 2016(09)
    • [11].云计算及其在生物信息学中的应用[J]. 电子技术与软件工程 2014(23)
    • [12].基于同态加密的生物数据版本管理[J]. 网络空间安全 2019(02)
    • [13].一种液相质谱实验数据时间特征统计校准方法[J]. 价值工程 2018(21)
    • [14].任务驱动教学法在生物数据文本挖掘中的应用[J]. 黑龙江科学 2016(15)
    • [15].锐词[J]. 东西南北 2019(01)
    • [16].多元线性回归分析法在蒙药森登-4汤谱效关系解析中的应用[J]. 计算机与应用化学 2008(10)
    • [17].生物信息学在医药学领域中的应用[J]. 医学信息(上旬刊) 2011(09)
    • [18].生物纳米计算机[J]. 电脑与电信 2009(09)
    • [19].文摘和文题[J]. 药物生物技术 2014(05)
    • [20].生物信息学研究方法探讨[J]. 黑龙江科技信息 2012(30)
    • [21].探讨生物信息标准化研究[J]. 生物信息学 2011(01)
    • [22].生物纳米计算机[J]. 电脑与电信 2010(01)
    • [23].转化生物信息学研究前沿及挑战[J]. 遗传 2015(07)
    • [24].基于粗糙集的生物数据分类[J]. 计算机与现代化 2010(07)
    • [25].数学也能治疗癌症[J]. 恋爱婚姻家庭(养生) 2010(04)
    • [26].生物信息学在昆虫学研究中的应用[J]. 应用昆虫学报 2012(01)
    • [27].生物信息专业实践教学体系建设研究与探索[J]. 实验室科学 2016(06)
    • [28].新书介绍[J]. 生物产业技术 2008(01)
    • [29].生物数据标准化研究进展[J]. 生物信息学 2015(01)
    • [30].颠覆传统医疗科研:借助人工智能研发抗癌药物[J]. 智慧健康 2016(05)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    面向生物数据的关联规则挖掘算法及其应用研究
    下载Doc文档

    猜你喜欢