数据挖掘的建模及在生物信息学中的应用研究

数据挖掘的建模及在生物信息学中的应用研究

论文摘要

近十几年,随着科学技术的飞速发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据。为了从如此大量的数据中发现有价值的知识及规律,人们结合统计学、数据库、机器学习等技术,提出数据挖掘技术来解决这一难题。聚类分析是数据挖掘研究中的重要内容,成为各学科研究中的重要工具。但在现实生活中,常常遇到高维数据集的处理且在大多数情况下,这些数据集对于各个聚类存在属性不平衡的现象。根据这一点,本文提出在核特征空间中的属性加权核聚类算法,实验表明新聚类算法能很好地反映各属性对于各个聚类的重要性,因而取得了比传统聚类算法更好的结果。传统聚类算法的应用对象往往局限于单一独立的数据集,但在很多情况下一个数据集要和其他数据集相互发生关联。基于信息理论,本文提出的合作聚类算法反映了数据集间的相互作用关系,结果表明聚类结果将受到其他数据集的影响。在人类世界中,人眼是最有效的获取知识的器官,也是最有效的聚类机制。因此模仿人眼的工作原理将为研究聚类分析提供一个非常好的平台。本文通过模拟人眼非均匀采样的特点,提出一新颖的视觉聚类分析算法,该算法对于解决聚类分析结果评价的有效性等有着重要的参考意义。随着生物科学技术在近几年的发展,产生了大量的生物数据。利用传统的生物实验方法将不能满足目前处理如此多生物数据的需要。在这种情况下,生物信息学应运而生。生物信息学是计算机科学与生物科学的交叉学科,成为目前研究的热点。诸多数据挖掘技术,如聚类分析、机器学习等,也成为生物信息研究中的重要内容。文章在分析了前人利用“无监督”模糊C均值聚类算法在预测分析蛋白质结构方面的缺陷的基础上,提出了一种“有监督”的聚类算法用来预测蛋白质结构。实验表明,利用了训练数据类别标号的“有监督”聚类算法的分类精度比“无监督”聚类算法有很大提高。通过这一点表明,在缺乏数据样本类别标号时,“无监督”聚类算法是一种优秀的分析工具,但如果先验知识预先知道训练样本的类别标号,采用“有监督”的学习算法将更加有效。在蛋白组学的研究中,一个重要的课题是如何离散化蛋白序列,从而能为计算机所识别处理。诸多实验表明,伪氨基酸离散模型比传统20-D氨基酸离散模型包含更多的序列顺序信息,因而大大地提高了各类算法在蛋白质属性上的预测分析精度。但如何确定伪氨基酸成分的维数一直是困扰各位研究人员的问题。本文提出了集成分类器框架方案,通过集成多个不同维数的伪氨基酸离散化模型,解决了维数选择问题,大量实验表明在大多数情况下,由于从不同角度抓住问题的核心,集成分类器比任何单一维数的分析精度都要高。随着生命科学、生命数据库的发展,近几年Gene Ontology(GO)数据库得到了长足的发展。GO数据库是一综合多种不同数据库的蛋白表达数据库。本文利用GO蛋白的离散模型预测分析蛋白亚细胞位置,由于GO离散模型更能反映蛋白亚细胞位置的特性,因此取得了比其他离散化模型更好的效果。另外,本文所建立的数据集覆盖了目前该领域研究中最多的亚细胞位置,大大扩大了该项研究的实际应用意义。为了更好地使广大生物学家应用本文生物信息学研究的成果,文章建立了多个在线生物信息预测分析网站,经不完全统计,已有来自美国、英国、荷兰、澳大利亚以及中国等世界各地的研究科学家通过互联网访问并使用所建立的在线生物信息服务网站,为科学研究的快速发展提供了强有力的支持。本文的创新性表现在:(1)提出高维核空间属性加权核聚类算法,并从理论上证明了收敛性;(2)讨论了合作聚类模型,该模型在研究实际社会中的关联模型上有重要意义;(3)通过模拟生物人眼非均匀采样的特点,提出一种新颖的视觉聚类算法;(4)提出基于“有监督”聚类算法的蛋白结构预测模型;(5)提出集成分类器框架模型,有效地解决了伪氨基酸蛋白离散模型的维数选择问题;通过在诸多应用对象、算法上的实验表明,该框架是切实可行的;(6)采用新型的GO蛋白离散模型分析预测蛋白亚细胞位置。该文所研究的细胞位置数目是目前该研究领域最多的,进一步加强了该研究的实际应用意义;另外,本文的研究涵盖了多个应用对象,如人类细胞、植物细胞、细菌细胞以及病毒等;(7)为了进一步加速研究成果的转化及应用,建立了多个在线生物服务网站。通过互联网,世界各地的科学家可以在线使用生物信息预测服务。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 引言
  • 1.1 数据挖掘
  • 1.2 生物信息学
  • 1.3 预备知识
  • 1.3.1 聚类分析理论
  • 1.3.2 机器学习
  • 1.4 本文研究内容
  • 第二章 特征空间属性加权模糊核聚类算法
  • 2.1 引言及研究动机
  • 2.1.1 研究动机
  • 2.1.2 FCM 模糊聚类算法
  • 2.1.3 Mercer 核
  • 2.2 WFKCA 算法
  • 2.2.1 WFKCA 算法
  • 2.2.2 WFKCA 收敛性证明
  • 2.3 实验分析
  • 实例1—IRIS 数据集测试
  • 实例2—高维数据聚类分析
  • 实例3—复杂背景图像分割
  • 2.4 讨论
  • 2.4.1 核函数的选择
  • 2.4.2 聚类不完整数据
  • 2.5 本章小结
  • 第三章 基于信息理论的合作聚类算法研究
  • 3.1 研究动机
  • 3.2 概率聚类算法
  • 3.3 数据集间的信息增益度量
  • 3.3.1 信息增益度量定义
  • 3.3.2 一个实例
  • 3.4 基于信息理论的合作聚类算法CCA
  • 3.4.1 CCA 算法
  • 3.4.2 CCA 收敛性证明
  • 3.5 仿真分析
  • 3.6 讨论
  • 3.7 本章小结
  • 第四章 采样定理、视觉原理及无监督聚类分析理论
  • 4.1 引言及研究动机
  • 4.2 采样定理与视觉原理
  • 4.3 基于视觉采样定理的新聚类算法
  • 4.3.1 Weber 定律
  • 4.3.2 基于视觉采样定理的新聚类算法
  • 4.4 仿真实验
  • 4.5 本章小结
  • 第五章 基于有监督聚类算法的蛋白结构分类
  • 5.1 研究背景及研究动机
  • 5.2 方法
  • 5.2.1 模糊分类器
  • 5.2.2 有监督模糊聚类算法
  • 5.3 实验及讨论分析
  • 5.4 本章小结
  • 第六章 基于集成分类器的蛋白序列分析
  • 6.1 背景知识及研究动机
  • 6.1.1 研究背景
  • 6.1.2 蛋白序列的离散化表示
  • 6.1.3 存在的问题及研究目的
  • 6.2 基于集成分类器的蛋白亚细胞定位研究
  • 6.2.1 亚细胞定位研究意义
  • 6.2.2 Covariant discriminant 算法
  • 6.2.3 分类器集成
  • 6.2.4 实验分析
  • 6.3 基于集成分类器的膜蛋白类型预测
  • 6.3.l 膜蛋白简介及研究意义
  • 6.3.2 基于集成分类器的膜蛋白识别
  • 6.3.3 实验结果分析
  • 6.4 基于集成分类器的蛋白折叠识别
  • 6.4.1 研究背景及研究意义
  • 6.4.2 基于的D-S 证据理论的优化KNN 算法
  • 6.4.3 基于集成分类器的蛋白折叠识别
  • 6.4.4 实验结果
  • 6.5 本章小结
  • 第七章 蛋白亚细胞位置预测分析
  • 7.1 引言及研究动机
  • 7.2 数据材料准备
  • 7.3 算法方法
  • 7.3.1 Gene Ontology 数据库
  • 7.3.2 预测算法
  • 7.4 实验结果及分析
  • 7.5 讨论
  • 7.5.1 算法模型的扩展
  • 7.5.2 生物研究对象的扩展
  • 7.6 本章小结
  • 第八章 在线生物服务网站建设
  • 8.1 动机及目的
  • 8.2 在线服务平台
  • 8.2.1 设计框架
  • 8.2.2 在线服务平台
  • 8.2.3 人类蛋白细胞定位系统
  • 8.3 本章小结
  • 第九章 总结及工作展望
  • 9.1 本文创新工作总结
  • 9.2 进一步工作展望
  • 图表目录
  • 参考文献
  • 附录1 公式(2-24)推导
  • 附录2 IRIS 数据集
  • 附录3 考古发现的两类宋代古窑器样本
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 学术服务
  • 相关论文文献

    • [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [19].浅析数据挖掘[J]. 内江科技 2020(06)
    • [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
    • [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    数据挖掘的建模及在生物信息学中的应用研究
    下载Doc文档

    猜你喜欢