蛋白质质谱数据挖掘方法研究

蛋白质质谱数据挖掘方法研究

论文摘要

准确诊断各类癌症至今仍是一个医学难题,尤其是对早期癌症的诊断。为此研究人员提出蛋白质质谱数据分析方法,通过分析蛋白质质谱数据样本来检测是否患有癌症。具体过程是:先提取样本关键特征训练分类器,然后用分类器对测试样本分类。由于蛋白质质谱数据固有的高维数和噪声等特性,显著增加了蛋白质质谱数据分析的复杂度,使得对蛋白质质谱数据的分类十分困难。本文采用卵巢癌和胰腺癌蛋白质质谱数据,并运用多种方法进行分析研究,特征选择采用T检验法、自组织神经网络和主成分分析法,样本分类器采用支持向量机和概率神经网络。本文研究五种蛋白质质谱数据分类方法,使用不同的特征选取方式和分类器。第一种分类方法:特征选择采用T检验法,分类器采用支持向量机;第二种分类方法:特征选择采用自组织映射网络,分类器采用支持向量机;第三种分类方法:特征选择采用T检验法和二次主成分分析法,分类器采用支持向量机;第四种分类方法:特征选择采用T检验法和MSDI(Maximum Significant Difference And Independence)算法,分类器采用概率神经网络;第五种分类方法:特征选择采用T检验法和本文提出的MSDSRI (Maximum Significant Difference And Square Root Of Independence)算法,分类器采用概率神经网络。本文针对上述蛋白质质谱数据的分类方法进行了详细的分析和深入的研究,得出结论如下:样本识别率不仅与特征选择的方法有关,还与分类器种类和用于分类器训练的特征数量有关。使用支持向量机作为分类器时,特征选择采用T检验法比自组织映射网络好,采用二次主成分分析法比主成分分析法好;使用概率神经网络作为分类器时:特征选择采用MSDSRI算法比MSDI算法好。从整体分类性能方面考虑,基于MSDI的特征选择算法和概率神经网络的分类方法,要好于基于二次主成分分析特征选择法和支持向量机的分类方法。在卵巢癌切片组织检查中样本识别率可达到99.498%;在胰腺癌切片组织检查中样本识别率可达到99.722%。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 1 绪论
  • 1.1 引言
  • 1.2 蛋白质组学的概述
  • 1.2.1 蛋白质组学的概念
  • 1.2.2 蛋白质组学研究的最终目的
  • 1.2.3 蛋白质组学研究存在的困难
  • 1.2.4 生物质谱技术和传统意义上的质谱技术主要区别
  • 1.2.5 蛋白质组学在国内的发展
  • 1.3 蛋白质质谱数据挖掘的概述
  • 1.3.1 蛋白质质谱相关概念
  • 1.3.2 蛋白质质谱数据挖掘方法的分类
  • 1.4 蛋白质质谱数据挖掘的发展现状
  • 1.5 蛋白质质谱数据挖掘当前存在的问题
  • 1.6 本文的研究工作与章节的安排
  • 2 蛋白质质谱数据挖掘方法分析
  • 2.1 引言
  • 2.2 分析过程
  • 2.2.1 预处理技术
  • 2.2.2 主要算法介绍
  • 2.3 蛋白质质谱数据分析方法
  • 2.3.1 基于主成分分析的分析方法
  • 2.3.2 基于神经网络的分析方法
  • 2.3.3 基于统计学的分析方法
  • 2.4 蛋白质质谱数据挖掘方法的效果
  • 2.5 本章小结
  • 3 基于自组织映射和支持向量机的蛋白质质谱数据分类方法
  • 3.1 引言
  • 3.2 理论介绍
  • 3.3 算法描述
  • 3.3.1 算法模型
  • 3.3.2 实验步骤
  • 3.4 实验结果与分析
  • 3.5 本章小结
  • 4 基于二次主成分分析和支持向量机的蛋白质质谱数据分类方法
  • 4.1 引言
  • 4.2 理论介绍
  • 4.3 算法描述
  • 4.3.1 算法模型
  • 4.3.2 实验步骤
  • 4.4 实验结果与分析
  • 5 基于统计学显著性和概率神经网络的蛋白质质谱数据分类方法
  • 5.1 引言
  • 5.2 理论介绍
  • 5.3 算法描述
  • 5.3.1 算法模型
  • 5.3.2 实验步骤
  • 5.4 实验结果与分析
  • 5.5 本章小结
  • 6 总结与展望
  • 6.1 本文工作的总结
  • 6.2 对未来工作的展望
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    蛋白质质谱数据挖掘方法研究
    下载Doc文档

    猜你喜欢