基于微阵列数据的诊断基因模式发现技术研究

基于微阵列数据的诊断基因模式发现技术研究

论文摘要

DNA微阵列技术推动生物信息学跨入了多基因、全基因组研究的崭新时代,同时也产生了远远超出传统数据分析方法处理能力的海量基因表达数据。设计符合表达数据特性的高效数据分析方法已成为生物信息学研究的热点和重点。人类疾病通常与基因相关。诊断基因是指与某一特定疾病表型紧密相关的基因,具有很强的区分不同样本表型的能力。本文对基于微阵列数据的诊断基因模式发现技术进行了深入的研究。第一,提出了一种考虑离群点的无监督表型和诊断基因发现算法UPID。该算法采用启发式搜索方法,通过划分表型“块”以及衡量划分子矩阵内部的相似性与子矩阵之间的差异性,同时发现微阵列数据的样本表型划分和区分样本表型的诊断基因。LPID算法克服了基本启发式搜索算法的弱点。该算法充分考虑了微阵列数据中大量存在的噪声数据,通过在每个表型内样本比例的函数以及模式质量函数之间进行调和,从而降低离群点对表型划分的影响。同时,在启发式搜索的迭代过程中,采用增量迭代的策略,大大减少了每次迭代过程的计算量,增加了算法的运行效率。实验结果证实,本文提出UPID算法在运行效率和有效性方面与之比较的算法均有较大改善,而且发现的诊断基因具有很强的生物学意义。第二,提出了基于兴趣非冗余对比序列规则的诊断基因模式发现算法NRMINER。首先,该算法针对基于单个基因和基因组合区分样本表型的局限性,提出了等价维组序列集合模型,从序列的角度建模微阵列数据。该模型充分考虑真实世界中广泛存在的基因间相互关系,以及大量存在于真实数据集的“噪声”数据。然后,设计了一种新的非冗余对比序列规则,该规则能够捕捉到不同样本表型间的差异,用尽可能短的基因序列来提供尽可能高的诊断准确率。进一步,给出了NRMINER算法来发现这种规则。与传统的列枚举和行枚举方法不同,NRMINER算法利用微阵列数据的特点,采用全新的模板驱动枚举方法,大大降低了搜索空间。最后,大量的实验表明,本算法在运行效率上大大优于相比较的算法,而且使用更少的基因提供了更高的分类准确率。同时,该算法发现的诊断基因具有很强的生物学意义。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景与意义
  • 1.2 研究目的
  • 1.3 本文的研究内容和主要贡献
  • 1.4 本文的组织结构
  • 第2章 相关研究工作
  • 2.1 聚类分析技术
  • 2.1.1 常用距离度量方法
  • 2.1.2 基于距离的聚类算法
  • 2.1.3 基于模式的聚类算法
  • 2.2 分类分析技术
  • 2.2.1 传统的分类算法
  • 2.2.2 基于关联规则的分类算法
  • 2.3 序列数据挖掘技术
  • 2.3.1 序列模式挖掘算法
  • 2.3.2 闭序列模式挖掘算法
  • 2.3.3 生成元模式挖掘算法
  • 2.4 本章小结
  • 第3章 考虑离群点的无监督表型和诊断基因发现算法
  • 3.1 研究现状及存在的问题
  • 3.2 基本概念和问题定义
  • 3.2.1 基本概念
  • 3.2.2 问题定义
  • 3.3 诊断基因发现和表型聚类
  • 3.3.1 聚类质量评估
  • 3.3.2 削弱离群点影响策略
  • 3.3.3 增量迭代优化策略
  • 3.3.4 UPID算法
  • 3.4 实验测试与结果分析
  • 3.4.1 实验数据集
  • 3.4.2 算法的有效性
  • 3.4.3 算法的效率
  • 3.5 本章小结
  • 第4章 基于兴趣非冗余对比序列规则的诊断基因模式发现算法
  • 4.1 研究现状及存在的问题
  • 4.2 基本概念和问题定义
  • 4.2.1 基本概念
  • 4.2.2 问题定义
  • 4.3 诊断基因模式发现算法
  • 4.3.1 特征基因选择
  • 4.3.2 EDS模型的建立
  • 4.3.3 发生矩阵与位置矩阵的创建
  • 4.3.4 NRMINER算法
  • 4.3.5 削减规则与结果精简
  • 4.4 分类方案
  • 4.4.1 分类规则的挑选
  • 4.4.2 分类器的构建
  • 4.5 实验测试与结果分析
  • 4.5.1 实验数据集
  • 4.5.2 NRMINER算法效率
  • 4.5.3 分类器的准确率
  • 4.5.4 生物学意义
  • 4.6 本章小结
  • 第5章 结束语
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的论文及参与的项目
  • 相关论文文献

    • [1].中小银行数据挖掘思路浅析[J]. 金融电子化 2020(05)
    • [2].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [3].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [4].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [5].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [6].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [7].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [8].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [9].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [10].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [11].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [12].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [13].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [14].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [15].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [16].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [17].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [18].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [19].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [20].浅析数据挖掘[J]. 内江科技 2020(06)
    • [21].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [22].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [23].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [24].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [25].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [26].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [27].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [28].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [29].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [30].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)

    标签:;  ;  ;  ;  

    基于微阵列数据的诊断基因模式发现技术研究
    下载Doc文档

    猜你喜欢