基于多源信息融合的基因表达数据聚类分析

基于多源信息融合的基因表达数据聚类分析

论文摘要

基因表达数据是通过DNA微阵列技术获得的关于一组基因表达过程及其调控信息的定量描述。研究基因表达数据,获取有意义的基因簇,对于研究生物现象背后的本质、遗传性疾病的诊断等有着重要意义。然而,由于基因表达数据中样本数远远小于观测的基因个数的特性及其在采集过程中产生的噪音数据使得单一依靠该数据源进行的聚类分析往往缺乏稳定性、可靠性,从而影响了预测的准确性。本文从多源信息融合的角度来研究基因表达数据的聚类分析技术,融合基因本体(GO),KEGG pathway等信息,以求获得稳定、可靠、共表达的基因类簇。其主要工作如下:1.选择网上公用的YEAST基因组数据作为测试数据,采用潜在语义分析方法对YEAST基因组的基因表达数据进行降维和去噪处理,并用欧氏距离的方法对数据相似性进行了度量;我们采用语义相似性度量的方法计算基因本体数据的相似性,并用Bioconductor软件对基因本体数据的相似性进行了度量。2.使用线性融合方法,从相似性度量的角度融合YEAST基因组的表达数据、本体数据,并用PAM(中心点划分)算法对基因表达数据,融合数据分别进行了聚类。结果表明线性融合算法可以大大提高基因表达数据的聚类效果。3.针对线性融合方法无法确定融合系数的问题,提出一种新的基于排列的融合方法。该方法将基因表达、基因本体的相似性度量值按大小排列的顺序给定序号,将序号作为融合系数进行数据的融合。从而可以自动获得融合的系数,算法上更具操作性。4.针对普通评价方法无法从功能上来评价基因表达数据聚类的有效性问题,提出用KEGG pathway数据从生物的生化功能上来评价聚类结果的有效性和意义。使用KEGG pathway方法进行评价时,证明半数以上的类别是可学习的。本文从多源信息融合的角度对基因表达数据进行聚类分析和评价,获得了较好的实验结果。然而融合的策略相对来说,还是比较简单,对各部分数据源在聚类效果中所起的作用还缺乏系统的理论证明。所以下一步的工作是:一方面,通过实验的方法,对更多的基因组数据进行测试,来验证算法的有效性;另一方面,运用信息论的方法,研究多源信息证据在基因表达数据聚类中的作用,为实现更加有效的融合策略提供理论依据。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景
  • 1.2 选题动机
  • 1.3 论文工作与组织结构
  • 第二章 研究方法概述
  • 2.1 引言
  • 2.2 聚类分析概述
  • 2.2.1 K-means 算法
  • 2.2.2 层次聚类
  • 2.2.3 自组织映射方法
  • 2.2.4 图理论算法
  • 2.2.5 DHC 算法
  • 2.3 多源信息融合
  • 2.3.1 多源信息融合概述
  • 2.3.2 多源信息融合与数据挖掘
  • 2.3.3 在基因聚类分析中的应用
  • 2.4 现存方法存在的问题
  • 第三章 多源数据的获取
  • 3.1 引言
  • 3.2 数据源介绍
  • 3.2.1 基因表达数据
  • 3.2.2 基因本体数据
  • 3.2.3 KEGG pathway 信息
  • 3.3 数据准备
  • 3.3.1 相关软件介绍
  • 3.3.2 数据下载
  • 3.3.3 数据预处理
  • 3.4 相似性度量
  • 3.4.1 基因表达数据的相似性度量
  • 3.4.2 基因本体数据的相似性度量
  • 第四章 融合方法设计
  • 4.1 引言
  • 4.2 融合方法
  • 4.2.1 线性融合方法
  • 4.2.2 基于排列的融合方法
  • 4.3 聚类算法
  • 4.4 聚类结果评价
  • 第五章 聚类结果评价及讨论
  • 5.1 引言
  • 5.2 类别数目对聚类结果的影响
  • 5.3 三种数据间聚类结果的比较
  • 5.4 两种融合算法之间的比较
  • 5.5 对聚类结果有效性的评价
  • 第六章 结论和展望
  • 6.1 全文总结
  • 6.2 存在问题及展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于聚类分析的高速铁路突发事故等级划分[J]. 内江科技 2019(12)
    • [2].基于PubMed数据库患者自我管理研究热点的共词聚类分析[J]. 中国医药导报 2020(01)
    • [3].基于聚类分析的学生成绩评定方法研究[J]. 智库时代 2020(11)
    • [4].基于因子聚类分析的儿童陪伴机器人用户细分[J]. 包装工程 2020(14)
    • [5].基于聚类分析的异常数据检测[J]. 电子技术与软件工程 2020(15)
    • [6].基于聚类算法的大用户用电模式识别研究[J]. 中国管理信息化 2017(19)
    • [7].数学学科核心素养要素析取的实证研究[J]. 数学教育学报 2016(06)
    • [8].聚类分析对学生成绩的研究[J]. 无线互联科技 2014(12)
    • [9].聚类分析和判别分析在投资中的应用[J]. 信息安全与技术 2015(06)
    • [10].基于K-聚类分析法的预防性养护路段划分[J]. 安徽建筑 2015(03)
    • [11].我国“中部崛起”战略的实证分析[J]. 智富时代 2016(S2)
    • [12].基于聚类分析的墨量预置优化方法[J]. 数码世界 2016(12)
    • [13].互联网保险产品开发研究——基于平安互联网保险产品的聚类分析[J]. 保险理论与实践 2017(03)
    • [14].高职大学生心理健康水平的聚类分析[J]. 现代职业教育 2017(07)
    • [15].环境安全评价指标体系的构建及聚类分析——以江苏省13市为例[J]. 赤子(下旬) 2017(01)
    • [16].聚类分析在方言分区上的应用——以江淮官话洪巢片为例[J]. 国际汉语学报 2017(01)
    • [17].经典划分聚类分析方法及算例[J]. 地壳构造与地壳应力文集 2016(02)
    • [18].聚类分析理论的简单应用[J]. 科学中国人 2016(03)
    • [19].2015—2018年国外机构养老研究热点的共词聚类分析[J]. 中国社会医学杂志 2019(06)
    • [20].基于主成分分析和Q型聚类分析的2018年俄罗斯世界杯足球赛各队技战术综合分析[J]. 计算机时代 2020(01)
    • [21].基于聚类分析的不均衡数据标注技术研究[J]. 计算机仿真 2020(02)
    • [22].大学生职业潜能聚类分析与实际就业状况的关联性研究[J]. 教育评论 2018(01)
    • [23].聚类分析在财政实务工作中的应用[J]. 财政科学 2018(02)
    • [24].农业生产资料价格指数的聚类分析[J]. 电脑知识与技术 2017(27)
    • [25].基于PubMed的共词聚类分析方法[J]. 电子科技 2016(02)
    • [26].聚类分析在外国语言学研究中的应用探讨[J]. 中国校外教育 2018(07)
    • [27].基于因子聚类分析的安徽服务业竞争力评价[J]. 中国市场 2013(02)
    • [28].教学测评数据的对应聚类分析法研究[J]. 科技信息 2012(34)
    • [29].近红外光谱和聚类分析法无损快速鉴别小儿抽风散[J]. 光谱学与光谱分析 2008(02)
    • [30].SPSS的聚类分析在经济地理中的应用[J]. 西部皮革 2016(08)

    标签:;  ;  ;  ;  ;  

    基于多源信息融合的基因表达数据聚类分析
    下载Doc文档

    猜你喜欢