支持向量机在医学及生物方面的应用

论文摘要

支持向量机（SVM）是上世纪90年代发展起来的数据挖掘新方法，在很多实际应用的领域上，它表现出很好的效果。本文的主要工作是SVM的两个比较成功的应用。一个是乳腺癌诊断上的应用，其支持向量机的分类器有着很好的泛化性。我们用非对称惩罚的C-SVM解决正负类样本数量不对称的问题；一个基于泛化界被用在快速的参数搜索方法里，此方法比单纯地k折交叉验证搜索参数更快速。在使用了cross-entry filter进行特征选择后，我们得到了更好的预测准确率。SVM另一方面的应用是对植物microRNA前体的预测。microRNAs（miRNAs）是一类非蛋白编码的、约22个碱基长度的小分子RNA，在多细胞生物生长发育等各方面起到了非常重要的调控作用。在本研究工作中，我们开发了一个全新的SVM分类器，用于搜索植物中的miNRA前体。这一分类模型用到了代表前体的12个全局和亚结构特征，对790个正类样本和7900个负类样本进行训练，模型得到五折的准确率为96.43％。对最新发现的53个植物miRNA前体（正类）和另外的62，883个负类进行测试，SVM分类器得到了99.85％的准确率，其中79.25％敏感性和99.87％的特异性。非常好的特异性使得该方法应用到基因组水平预测植物miRNA基因成为可能，并且这种方法可以只利用单一基因组的序列信息进行预测，这将为发现物种特异性的miRNA基因提供非常有效的工具。

论文目录

论文摘要

ABSTRACT

序言

第一节浅谈理论的应用

第二节支持向量机、模式识别与数据挖掘

第一部分乳腺癌诊断

第一节背景介绍

第二节模型和参数的确定

第三节特征选择

第四节应用总结

第二部分植物 microRNAs 预测

第一节研究背景

第二节材料与方法

1. 预测方法概述

2. Filter 初筛

3. 样本的选择

4. 支持向量机

第三节结果与讨论

1. Filter的效率

2. SVM的特征

3. SVM的训练与测试

4. 其它物种中的测试

5. 在基因组水平预测 pre-miRNAs 的方法

第四节结论

附录

参考文献

研究生期间论文

致谢

支持向量机在医学及生物方面的应用

论文摘要

论文目录

相关论文文献

猜你喜欢