基于流形学习的生物数据特征提取方法

基于流形学习的生物数据特征提取方法

论文摘要

随着信息新技术的快速发展,人们直接从试验中得到的数据正以指数级规模增长,并且掺杂着许多不确定信息和冗余信息,因此直接对数据进行处理已变得越来越艰难。研究生物数据特征的意义重大,不但有助于加快对生物数据的处理,提高对生物数据的精度,而且对生物学、医学和药学的探究都有非常重要的作用。目前在计算机视觉、基因微阵列数据分析和生物特征识别中直接获得的数据都是高维的,因而如何有效得从这些高维数据中提取有效数据信息已迫切成为信息科学与技术所面临的重要课题。本文所要研究的是针对生物数据的高维小样本特征如何提取有效信息,使之成为低维小样本,以及如何构建一个对生物数据特征的分类模型,使之能够更加准确有效的识别不同类别的生物数据。内容包括生物数据的特征提取方式,神经网络结构设计及流形学习算法的选择。(1)生物数据特征提取。要对生物数据特征进行分类识别,首先必须把生物数据特征信息提取出来,转换成计算机能够处理的数据,然后对这种大批量的高维小样本数据进行特征提取,即选择主要特征剔除冗余及无关特征。因此,如何提取生物数据主要特征,即选择何种特征提取方法尤为重要,不同的特征提取出来的信息不尽相同,目前的方法主要有线性特征提取方法如主成分分析(PCA)、独立成分分析(ICA),非线性特征提取方法如非线性PCA网络、Kohonen匹配,流形学习如等度规映射(Isomap)、局部线性嵌入(LLE)、非负矩阵分解(NMF)等,从不同角度对生物数据进行特征特征提取。本文采用了等度规映射和非负矩阵分解的特征提取。实验表明,不同的特征提取方式对于不同的数据集和分类模型效果不同。(2)分类模型的建立。本文采用了克隆数据集和白血病数据集,其分类及预测的实质是根据前面所提取的有用信息即降维后的数据,通过分析这些信息之间的关系,总结出一定规律,然后实现对未知数据的类别预测。这两种数据集特征提取后的数据信息维数仍然比较高,计算量也比较大,因此借助神经网络是非常必要有效的。神经网络具有比较强的自组织、自学习和自适应能力,此外还具有比较好的容错能力,因此利用神经网络能快速有效地学习到数据序列中所包含的特征信息,实现对类别的训练及预测。神经网络的优化包括结构的优化以及参数的优化两部分,采用哪种优化算法是至关重要的,不同的优化算法具有不同的时间效率,不同的算法产生不同的分类预测精度。针对神经网络的这种特点,本文采用不同的优化算法对神经网络进行优化,选择出更适合这种数据集的优化算法。实验表明,采用BP神经网络能够在一定程度上提高对数据的预测准确率,通过实验还表明,神经网络采用单输出方式比采用多输出方式能够取得更好的效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 生物信息学应用及展望
  • 1.3 研究目的及现状
  • 1.4 本文研究提纲
  • 第二章 实验方案设计与研究方法
  • 2.1 引言
  • 2.2 流形的概念
  • 2.3 线性的流形学习算法
  • 2.3.1 主成分分析算法(PCA)
  • 2.3.2 线性流形学习算法总结
  • 2.4 非线性的流形学习算法
  • 2.4.1 等度规映射算法
  • 2.4.2 局部线性嵌入算法(LLE)
  • 2.4.3 非负矩阵分解算法(NMF)
  • 第三章 处理基因芯片的分类学习算法
  • 3.1 引言以及基因芯片简介
  • 3.2 线性分类器算法
  • 3.2.1 支持向量机算法
  • 3.2.2 最小二乘法算法
  • 3.3 非线性分类器算法
  • 3.3.1 引言
  • 3.3.2 非线性支持向量机分类器理论推导
  • 3.3.3 神经网络算法
  • 3.3.4 贝叶斯分类器
  • 3.3.5 马尔科夫链模型
  • 3.3.6 隐马尔科夫链模型
  • 第四章 基于流形学习的生物数据特征提取算法
  • 4.1 基于非负矩阵分解的肿瘤数据分类
  • 4.1.1 实验方法与实验材料
  • 4.1.2 实验结果与讨论
  • 4.1.3 结论
  • 4.2 基于保守自适应 K-最近邻算法的维数约简
  • 4.2.1 问题描述和实验材料
  • 4.2.2 保守自适应K-最近邻算法步骤与结果
  • 4.2.3 结论
  • 第五章 结束语
  • 5.1 全文总结
  • 5.2 进一步设想
  • 5.3 心得体会
  • 参考文献
  • 致谢
  • 附录
  • 一、在校期间发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于流形学习的生物数据特征提取方法
    下载Doc文档

    猜你喜欢