Bicluster数据分析软件设计与实现

Bicluster数据分析软件设计与实现

论文摘要

随着生物学中基因芯片等技术的发展,人们获得了大量的基因在不同实验条件下的表达水平数据,这些数据通常会以矩阵的形式进行组织,并将其称之为microarray data。越来越多的人开始关注采用计算机的方法去处理这些数据,以找到这些数据中的一些内在关联,如哪些基因会在一组实验条件下出现共同表达的现象,又或者是一组基因在哪些实验条件下的表达水平变化是一致的等等。传统的聚类算法,通常只能对数据的一个维度进行聚类,这使得基因表达水平数据中很多共同表达的关系无法被发现。近年来,越来越多的人开始研究能够在数据的行和列两个维度同时进行聚类的方法,以获取数据中的局部模式,即找到数据矩阵空间中的子空间(subspace或submatrix)。这类子空间也常被称为bicluster,用于挖掘这类子空间的算法被称之为biclustering算法[1]。除此之外,也有人称之为direct clustering、block clustering、coclustering以及subspace clustering算法等[2]。本文设计并开发了一款bicluster数据分析软件——CohAT,可用于分析数据中的相关联模式,尤其是可用于对基因表达水平数据的分析,计算数据中的bicluster。更重要的是还实现了对大规模数量的bicluster进行管理和快速查找的功能,使得对biclustering算法不是非常熟悉的用户,依然能够非常便捷地运用biclustering算法对基因表达水平数据进行分析,尤其是可以很方便地根据一组已知的基因或实验条件计算或查找与之相关联的bicluster。本文对biclustering算法进行了学习总结,尤其是深入学习和研究了RAP和ET-Bicluster两个算法。RAP算法具有可直接对实数值域的基因表达水平数据进行分析;可对同时包含正、负表达的基因数据进行求解;可求解出所有满足条件的bicluster的特点。另外,ET-Bicluster算法还可以对具有噪声的数据进行处理。因此,本文修改实现了这两个算法作为软件分析基因表达水平数据的核心算法。并针对用户可能只关心包含某些基因或某些实验条件的相关联模式的情况,对算法进行了计算优化,可极大地提高算法计算的效率。由于RAP和ET-Bicluster算法可以求解出所有满足条件的bicluster,这也导致算法可能求解出大量的bicluster。这就需要一个有效的方法对这些bicluster进行组织和管理,并实现快速地查找。本文着重研究了对bicluster建立索引的技术,通过建立位图(Bitmap)和前缀树索引,对求得的大规模数量的bicluster进行了有效地管理,并实现了快速查找和筛选的功能。同时本文还针对连索引文件也太大无法一次全部读入内存的情况进行了优化处理。最后本文还研究了对索引进行压缩存储的方法,在尽量减少额外存储空间的同时,也可以加快索引文件的读写。最后,本文对其中一个使用得最为广泛的生物基因数据库进行了学习了解。实现了利用已有的基因数据,对求解的bicluster进行假设检验分析,计算相应的P-value[3]的功能,并且实现了Bonferroni和FDR两种多假设检验修正的方法。同时,为了使用户更方便直观地查看基因数据库中的相关信息,实现了利用有向无环图的方式可视化地展示Gene Ontology[4]的相关内容。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.2 相关工作
  • 1.3 本文研究内容
  • 1.4 本文组织结构
  • 第2章 RAP 和ET-Bicluster 算法
  • 2.1 RAP 算法介绍
  • 2.2 RAP 算法的计算优化
  • 2.3 ET-Bicluster 算法介绍
  • 2.4 本章小结
  • 第3章 Bicluster 管理技术研究
  • 3.1 位图(Bitmap)索引
  • 3.2 位图索引的优化和压缩
  • 3.3 前缀树索引
  • 3.4 前缀树索引的优化和压缩
  • 3.5 位图索引和前缀树索引的性能对比
  • 3.6 对基因和实验条件同时建立索引
  • 3.7 本章小结
  • 第4章 Biclustering 结果分析
  • 4.1 相关联模式的一致性分析
  • 4.2 生物重要性分析
  • 4.3 基因数据库介绍
  • 4.4 本章小结
  • 第5章 Bicluster 数据分析软件的设计
  • 5.1 需求分析
  • 5.2 总体设计
  • 5.3 模块设计
  • 5.4 本章小结
  • 第6章 Bicluster 数据分析软件的实现和应用
  • 6.1 开发工具及运行环境介绍
  • 6.2 Biclustering 算法实现
  • 6.3 Bicluster 管理技术的实现
  • 6.4 生物重要性分析的实现
  • 6.5 本章小结
  • 第7章 总结与展望
  • 7.1 全文总结
  • 7.2 进一步的研究工作
  • 参考文献
  • 相关论文文献

    • [1].数据分析软件的设计和实现[J]. 电子制作 2015(10)
    • [2].数据分析软件思想在试题中的应用研究[J]. 湖南中学物理 2017(05)
    • [3].数据分析软件的设计和实现[J]. 山东工业技术 2015(12)
    • [4].网站数据分析软件的设计与实现[J]. 科技传播 2010(22)
    • [5].可控震源辅助数据分析软件的开发和应用[J]. 石油仪器 2009(02)
    • [6].密立根油滴实验数据分析软件的设计[J]. 实验室科学 2009(03)
    • [7].视觉质量数据分析软件实现探讨[J]. 现代电视技术 2020(09)
    • [8].怡能媒体推出新一代革命性数据分析软件IntelliSense[J]. 电脑与电信 2015(06)
    • [9].TGS数据分析软件与实验验证[J]. 中国原子能科学研究院年报 2009(00)
    • [10].ATP数据分析软件应用及典型故障分析[J]. 铁路通信信号工程技术 2008(02)
    • [11].生产数据分析软件的开发及应用[J]. 科技资讯 2008(18)
    • [12].民机试飞数据分析软件开发[J]. 软件导刊 2011(11)
    • [13].数据复盘,让每一场足球比赛都有价值(一)[J]. 校园足球 2018(03)
    • [14].基于模式匹配的大规模数据分析软件设计与实现[J]. 计算机系统应用 2010(02)
    • [15].基于随机森林算法的数据分析软件设计[J]. 黑龙江工程学院学报 2017(03)
    • [16].基于Android系统的谱数据分析软件设计与实现[J]. 中国矿业 2017(S1)
    • [17].气相色谱仪结合数据分析软件鉴别橄榄油掺杂[J]. 食品安全质量检测学报 2014(10)
    • [18].基于Zlib的机车无线重联数据分析软件的实现[J]. 机车电传动 2017(01)
    • [19].职业病危害企业分布数据分析软件开发与应用[J]. 中国职业医学 2013(06)
    • [20].上海光源固定辐射监测系统数据库及数据分析软件[J]. 核电子学与探测技术 2009(03)
    • [21].基于IDL试验数据分析软件系统的设计与实现[J]. 上海工程技术大学学报 2011(01)
    • [22].厚板轧后冷却过程实际后处理数据分析软件的开发及其应用[J]. 工业控制计算机 2008(04)
    • [23].领航赴美大数据第一股[J]. 首席财务官 2016(21)
    • [24].甲骨文宣布收购大数据分析软件公司DataRaker[J]. 中国建设信息 2012(24)
    • [25].观点[J]. 销售与市场(管理版) 2014(02)
    • [26].基于MATLAB GUI的AMT插电式系统数据分析软件设计[J]. 新型工业化 2015(10)
    • [27].情报研究中数据分析软件的应用——扬州劳动力市场需求的信息分析[J]. 竞争情报 2010(02)
    • [28].基于.NET技术的电力录波数据分析软件[J]. 电子技术与软件工程 2015(17)
    • [29].3D MIA DICOM数据分析软件对心腔容积定量评估的准确性分析[J]. 临床放射学杂志 2009(04)
    • [30].浅析SPSS软件在物理教育统计中的应用[J]. 中国信息技术教育 2011(02)

    标签:;  ;  ;  ;  

    Bicluster数据分析软件设计与实现
    下载Doc文档

    猜你喜欢