论文题目: 生物信息数据挖掘中的若干方法及其应用研究
论文类型: 博士论文
论文专业: 运筹学与控制论
作者: 宋杰
导师: 唐焕文
关键词: 生物信息学,数据挖掘,支持向量机,蛋白质,图形表示
文献来源: 大连理工大学
发表年度: 2005
论文摘要: 许多生物(包括人在内)的基因组测序已经完成或接近完成,在揭示这些巨量数据所蕴涵的信息时,产生了一门新的交叉学科—生物信息学,通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。数据挖掘技术用于在数据库中发现潜在有用的知识,在生物信息学研究当中,正发挥着越来越重要的作用,而且取得了丰硕的成果。本文探讨若干生物信息数据挖掘的方法及其应用,主要工作如下: 1.用支持向量机和FDOD两种方法对同源寡聚蛋白质进行了分类研究。Garian R.利用决策树方法从蛋白质一级结构出发对同源二聚体和同源非二聚体进行了分类,证实了蛋白质一级结构即氨基酸序列包含四级结构信息。本文用SVM和FDOD两种方法对同源二聚体和同源非二聚体进行分类,利用原始序列的子序列分布作为特征向量。采用和决策树方法同样的数据集,两种方法均大幅度提高了预测准确率。本文也对同源二聚体、同源三聚体、同源四聚体和同源六聚体进行了分类,取得了好的结果。 2.构造了基于线性规划的ν-SVM分类器。Scholkopf B等提出的基于二次规划的ν-支持向量机(ν-SVM)相比标准的SVM,其优势在于可以控制支持向量的数目和误差,但由于增加了模型的复杂性,限制了其应用。本文构造了一种基于线性规划的ν-SVM分类器,模型简单,参数ν具有明确的意义,同样可以控制支持向量的数目和误差,可以直接利用比较成熟的线性规划算法。数值试验表明,本文提出的基于线性规划的ν-SVM的训练速度要比基于二次规划的ν-SVM快得多,而分类效果两者相当。 3.提出了无参数鲁棒线性规划支持向量机分类的牛顿算法。Mangasarian O L最近提出的无参数鲁棒线性规划支持向量机克服了标准SVM需要选取正则化参数等一些缺点,其模型是一个线性规划。本文给出了这种线性规划的精确的最小2-范数解,在此基础上提出了快速的牛顿算法,此算法只需要一个线性方程组解算器。理论、数值实验以及在癌症基因表达数据分类上的应用都表明了用牛顿算法实现的无参数鲁棒线性规划支持向量机模型合理、简单,算法快速、容易实现。 4.用FDOD方法对DNA序列进行相似性分析。序列的比较是生物信息学中最常用的研究手段之一,其根本任务是发现序列之间的相似性和不相似性。序列比对是序列比较的主要方法,但有其不足之处,所以很多人寻求用其他方法来比较DNA序列。本文
论文目录:
摘要
Abstract
1 绪论
1.1 选题的背景和意义
1.2 数据挖掘与生物信息学
1.3 支持向量机的理论、算法及应用
1.4 FDOD函数及其应用
1.5 本文主要工作
2 基于SVM和FDOD方法的同源寡聚蛋白质分类
2.1 引言
2.2 方法的描述
2.3 对同源二聚体和同源非二聚体的分类
2.4 同源寡聚蛋白质多类分类
2.5 讨论
2.6 小结
3 基于线性规划的ν-SVM分类器
3.1 引言
3.2 基于二次规划的ν-支持向量机分类器
3.3 基于线性规划的ν-支持向量机分类器
3.4 算法与数值实验
3.5 小结
4 无参数鲁棒线性规划支持向量机分类的牛顿法
4.1 引言
4.2 无参数鲁棒线性规划支持向量机的模型
4.3 模型的最小2-范数解
4.4 牛顿算法
4.5 数值实验
4.6 算法在肿瘤分类中的应用
4.7 小结
5 基于FDOD方法的DNA序列相似性分析
5.1 引言
5.2 数据
5.3 方法的描述
5.4 结果和讨论
5.5 小结
6 一种新的DNA序列的2-D图形表示方法及其应用
6.1 引言
6.2 DNA序列的一种新的2-D图形表示
6.3 DNA序列的数值刻划
6.4 DNA序列的相似性分析
6.5 小结
7 总结与展望
参考文献
攻读博士学位期间发表和完成学术论文情况
创新点摘要
致谢
附录 生物学基础知识
大连理工大学学位论文版权使用授权书
发布时间: 2005-07-04
参考文献
- [1].正则化方法在数据挖掘中的应用与研究[D]. 姜彦.湖南大学2015
- [2].结合可视化与数据挖掘的数据分析方法探究[D]. 马昱欣.浙江大学2017
- [3].时间序列数据挖掘研究与应用[D]. 王达.浙江大学2004
- [4].粗糙集理论在数据挖掘领域中的应用[D]. 马昕.浙江大学2003
- [5].序列数据挖掘的模型和算法研究[D]. 杨虎.重庆大学2003
- [6].数据挖掘相关算法的研究与平台实现[D]. 李秋丹.大连理工大学2004
- [7].数据挖掘方法研究及其在中药复方配伍分析中的应用[D]. 李力.西南交通大学2003
- [8].Rough Set理论及其在数据挖掘中的应用研究[D]. 于洪.重庆大学2003
- [9].KDD中的几个关键问题研究[D]. 陈莉.西安电子科技大学2003
- [10].数据挖掘中聚类方法的研究[D]. 王莉.天津大学2004