模糊C-均值聚类在基因表达数据分析中的应用与研究

模糊C-均值聚类在基因表达数据分析中的应用与研究

论文摘要

随着微阵列技术的飞速发展,产生了呈指数增长的海量微阵列数据。面对如此庞大的微阵列数据,若不能采取有效的方法进行处理,大量的数据资源将会变成“数据灾难”或是无用的“数据垃圾”。由于微阵列数据具有海量、高维、高变异、高污染、样本少、含噪声等特点,使有效的从中提取有意义的生物信息为人类服务,具有极大的挑战性。为了迎接挑战,特别是在没有任何先验信息或先验信息匮乏的前提下研究、分析问题,促使模糊聚类的理论和应用的研究成为近年来生物信息学的研究热点。本文就目前最常用的且研究最多的基于目标函数的模糊C-均值聚类算法进行了深入的研究,然后针对其存在的问题并结合基因表达数据的特点进行了一些改进,最后将其运用到基因表达数据分析中,其主要工作与创新点列举如下:一、在阐述基因表达数据预处理技术的数据筛选时,充分考虑基因表达数据的特点,将数据获取的实验条件与数据指标DETECTION PVALUE、ABSCALL表示的生物学含义与统计学意义结合起来,提出一种新的数据粗筛选方法,并在前人研究的基础上提出了数据筛选的“三步走”。二、仔细研究了模糊C-均值聚类算法理论与研究概况,针对其存在的不足,结合基因表达数据的特点,引入前人提出的加权模糊C-均值聚类算法,本文结合主成分分析的降维特点提出了一种基于损失信息补偿的新的权重确定方法。三、鉴于模糊C-均值聚类容易受到初始参数特别是聚类数、初始聚类中心的影响,聚类结果不稳定。本文在前人研究的基础上对聚类数进行了新的确定,有效的避免了无根据确定聚类数的盲目性。接着,在系统聚类的基础上,提出一种新的初始聚类中心确定方法。最后,在随机选取初始聚类中心与聚类中心初始化条件下,采用标准模糊C-均值聚类算法与改进的算法对来自不同时间与不同品牌香烟烟雾环境的支气管上皮细胞样本进行了分类,经验证改进后的聚类算法获得了比较好的聚类结果,同时也加快了收敛速度。四、对基因表达数据聚类结果给出合理的生物学解释。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 课题研究的背景与意义
  • 1.1.1 基因芯片技术简介
  • 1.1.2 基因芯片应用领域
  • 1.2 基因表达数据简介
  • 1.3 基因表达数据分析方法简介
  • 1.4 本文的主要研究内容与组织结构
  • 2 数据预处理技术
  • 2.1 数据预处理技术简介
  • 2.1.1 数据清洗
  • 2.1.2 数据集成
  • 2.1.3 数据归约
  • 2.1.4 数据筛选
  • 2.1.5 数据变换
  • 2.2 主成分分析(PCA)
  • 2.2.1 主成分分析原理
  • 2.2.2 主成分分析与基本性质
  • 2.2.3 方差贡献率与累计方差贡献率
  • 2.2.4 主成分与原有指标的关系
  • 2.3 本章小结
  • 3 聚类分析
  • 3.1 聚类理论
  • 3.1.1 聚类的定义
  • 3.1.2 相似性度量方式
  • 3.1.3 聚类的性质
  • 3.2 常用聚类算法简介
  • 3.3 基因表达数据聚类技术简介
  • 3.3.1 聚类技术的类型
  • 3.3.2 基因表达数据聚类算法概述
  • 3.4 本章小结
  • 4 模糊C-均值聚类理论与应用研究
  • 4.1 模糊C-均值聚类理论
  • 4.1.1 模糊C-均值聚类目标函数发展研究
  • 4.1.2 模糊C-均值聚类算法基本原理
  • 4.1.3 模糊C-均值聚类算法实现流程
  • 4.2 模糊加权指数研究
  • 4.3 模糊C-均值聚类算法的研究概况
  • 4.3.1 模糊C-均值聚类算法研究现状
  • 4.3.2 模糊聚类在基因表达数据分析中的应用研究
  • 4.4 本章小结
  • 5 FCM 算法改进与实例分析
  • 5.1 算法的改进
  • 5.1.1 基于属性加权的模糊C均值(FCM)聚类算法
  • 5.1.2 权值的设定
  • 5.1.3 聚类数的优选与初始聚类中心的确定
  • 5.1.3.1 聚类数的优选
  • 5.1.3.2 初始聚类中心的确定
  • 5.2 改进的加权FCM算法实现流程
  • 5.3 实验验证与分析
  • 5.3.1 数据筛选
  • 5.3.2 降维、权值确定
  • 5.3.3 聚类数与初始聚类中心的确定
  • 5.3.4 改进的模糊C-均值聚类效果展示与分析
  • 5.4 聚类结果的生物学解释与分析
  • 5.5 本章小结
  • 6 总结与展望
  • 6.1 工作总结
  • 6.2 展望
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 致谢
  • 相关论文文献

    • [1].基于k-均值聚类的小麦质量评价[J]. 现代面粉工业 2018(02)
    • [2].结合低秩表达的模糊均值聚类图像分割方法[J]. 信息通信 2016(11)
    • [3].融合改进人工蜂群和K均值聚类的图像分割[J]. 液晶与显示 2017(09)
    • [4].基于模糊C均值聚类和距离的专家赋权研究[J]. 商 2016(05)
    • [5].多中心的非平衡K-均值聚类方法[J]. 中北大学学报(自然科学版) 2015(04)
    • [6].基于随机抽样的加速K-均值聚类方法[J]. 计算机与现代化 2013(12)
    • [7].基于改进主成分和全局k均值聚类的汽车行驶工况构建[J]. 中国科技论文 2020(11)
    • [8].抑制式模糊C-均值聚类研究综述[J]. 西安邮电大学学报 2014(03)
    • [9].模糊c-均值聚类法在干港选址中的应用[J]. 水运管理 2009(02)
    • [10].模糊c-均值聚类法在干港选址中的应用[J]. 水运工程 2009(05)
    • [11].基于核K-均值聚类和支持向量机结合的说话人识别方法[J]. 哈尔滨理工大学学报 2008(05)
    • [12].基于模糊C均值聚类的空中目标运动特征识别方法[J]. 舰船电子工程 2020(06)
    • [13].基于K-均值聚类统计的特色小镇评价[J]. 统计与决策 2018(21)
    • [14].基于K均值聚类方法的抽油机井系统能耗分析[J]. 数码设计 2016(02)
    • [15].基于K-均值聚类粒子群算法的变电站定容选址[J]. 陕西电力 2015(11)
    • [16].基于随机权重粒子群和K-均值聚类的图像分割[J]. 图学学报 2014(05)
    • [17].一种并行的加速k-均值聚类方法[J]. 电脑知识与技术 2013(18)
    • [18].一种加速的k-均值聚类方法[J]. 韶关学院学报 2012(12)
    • [19].基于模糊C-均值聚类的能源消费结构分析[J]. 学术交流 2008(12)
    • [20].对类大小不敏感的图像分割模糊C均值聚类方法[J]. 激光与光电子学进展 2020(02)
    • [21].一种基于降维思想的K均值聚类方法[J]. 湖南城市学院学报(自然科学版) 2017(01)
    • [22].基于模糊C均值聚类的岩性识别研究[J]. 科技创新与应用 2016(01)
    • [23].支持向量机与K-均值聚类融合算法的研究[J]. 现代计算机(专业版) 2016(20)
    • [24].基于模糊C均值聚类的光伏阵列故障诊断方法[J]. 太阳能学报 2016(03)
    • [25].基于K均值聚类及模糊支持向量机的海洋灾害风险预警方法[J]. 数字技术与应用 2015(02)
    • [26].一种改进的局部模糊C-均值聚类分割算法研究[J]. 计算机科学 2015(S1)
    • [27].k均值聚类方法在高中学生成绩分析中的应用[J]. 数学学习与研究 2017(21)
    • [28].基于k-均值聚类的朴素贝叶斯分类算法[J]. 福建电脑 2013(11)
    • [29].基于模糊C均值聚类的学生表现评估[J]. 信息技术 2020(11)
    • [30].基于量子遗传算法和模糊C均值聚类的图像分割[J]. 湖北工程学院学报 2020(06)

    标签:;  ;  ;  

    模糊C-均值聚类在基因表达数据分析中的应用与研究
    下载Doc文档

    猜你喜欢