支持向量机在医学及生物方面的应用

支持向量机在医学及生物方面的应用

论文摘要

支持向量机(SVM)是上世纪90年代发展起来的数据挖掘新方法,在很多实际应用的领域上,它表现出很好的效果。本文的主要工作是SVM的两个比较成功的应用。一个是乳腺癌诊断上的应用,其支持向量机的分类器有着很好的泛化性。我们用非对称惩罚的C-SVM解决正负类样本数量不对称的问题;一个基于泛化界被用在快速的参数搜索方法里,此方法比单纯地k折交叉验证搜索参数更快速。在使用了cross-entry filter进行特征选择后,我们得到了更好的预测准确率。SVM另一方面的应用是对植物microRNA前体的预测。microRNAs(miRNAs)是一类非蛋白编码的、约22个碱基长度的小分子RNA,在多细胞生物生长发育等各方面起到了非常重要的调控作用。在本研究工作中,我们开发了一个全新的SVM分类器,用于搜索植物中的miNRA前体。这一分类模型用到了代表前体的12个全局和亚结构特征,对790个正类样本和7900个负类样本进行训练,模型得到五折的准确率为96.43%。对最新发现的53个植物miRNA前体(正类)和另外的62,883个负类进行测试,SVM分类器得到了99.85%的准确率,其中79.25%敏感性和99.87%的特异性。非常好的特异性使得该方法应用到基因组水平预测植物miRNA基因成为可能,并且这种方法可以只利用单一基因组的序列信息进行预测,这将为发现物种特异性的miRNA基因提供非常有效的工具。

论文目录

  • 论文摘要
  • ABSTRACT
  • 序言
  • 第一节 浅谈理论的应用
  • 第二节 支持向量机、模式识别与数据挖掘
  • 第一部分 乳腺癌诊断
  • 第一节 背景介绍
  • 第二节 模型和参数的确定
  • 第三节 特征选择
  • 第四节 应用总结
  • 第二部分 植物 microRNAs 预测
  • 第一节 研究背景
  • 第二节 材料与方法
  • 1. 预测方法概述
  • 2. Filter 初筛
  • 3. 样本的选择
  • 4. 支持向量机
  • 第三节 结果与讨论
  • 1. Filter的效率
  • 2. SVM的特征
  • 3. SVM的训练与测试
  • 4. 其它物种中的测试
  • 5. 在基因组水平预测 pre-miRNAs 的方法
  • 第四节 结论
  • 附录
  • 参考文献
  • 研究生期间论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    支持向量机在医学及生物方面的应用
    下载Doc文档

    猜你喜欢