论文摘要
准确诊断各类癌症至今仍是一个医学难题,尤其是对早期癌症的诊断。为此研究人员提出蛋白质质谱数据分析方法,通过分析蛋白质质谱数据样本来检测是否患有癌症。具体过程是:先提取样本关键特征训练分类器,然后用分类器对测试样本分类。由于蛋白质质谱数据固有的高维数和噪声等特性,显著增加了蛋白质质谱数据分析的复杂度,使得对蛋白质质谱数据的分类十分困难。本文采用卵巢癌和胰腺癌蛋白质质谱数据,并运用多种方法进行分析研究,特征选择采用T检验法、自组织神经网络和主成分分析法,样本分类器采用支持向量机和概率神经网络。本文研究五种蛋白质质谱数据分类方法,使用不同的特征选取方式和分类器。第一种分类方法:特征选择采用T检验法,分类器采用支持向量机;第二种分类方法:特征选择采用自组织映射网络,分类器采用支持向量机;第三种分类方法:特征选择采用T检验法和二次主成分分析法,分类器采用支持向量机;第四种分类方法:特征选择采用T检验法和MSDI(Maximum Significant Difference And Independence)算法,分类器采用概率神经网络;第五种分类方法:特征选择采用T检验法和本文提出的MSDSRI (Maximum Significant Difference And Square Root Of Independence)算法,分类器采用概率神经网络。本文针对上述蛋白质质谱数据的分类方法进行了详细的分析和深入的研究,得出结论如下:样本识别率不仅与特征选择的方法有关,还与分类器种类和用于分类器训练的特征数量有关。使用支持向量机作为分类器时,特征选择采用T检验法比自组织映射网络好,采用二次主成分分析法比主成分分析法好;使用概率神经网络作为分类器时:特征选择采用MSDSRI算法比MSDI算法好。从整体分类性能方面考虑,基于MSDI的特征选择算法和概率神经网络的分类方法,要好于基于二次主成分分析特征选择法和支持向量机的分类方法。在卵巢癌切片组织检查中样本识别率可达到99.498%;在胰腺癌切片组织检查中样本识别率可达到99.722%。