面向蛋白质结构预测的计算生物学技术研究

面向蛋白质结构预测的计算生物学技术研究

论文摘要

随着生物数据量呈指数级增长,产生了新的交叉学科――计算生物学,由此给数据挖掘、机器学习和统计学等领域带来了新的挑战。计算生物学中的研究内容之一就是从蛋白质序列预测蛋白质结构,从计算机技术角度看,这是一个分类预测问题,而如何为分类问题建立一个有效并且高效的预测模型一直以来是数据挖掘领域,机器学习和统计学领域研究的热点。本论文的主要工作是从海量数据的处理、预测的可解释性和提高预测精度等主要方面入手,对计算生物学中面向蛋白质结构预测的模型、方法和关键技术进行系统地研究,在结合本文提出的基于粒计算预测模型的基础上,试图将数据挖掘、机器学习和统计学习理论中针对分类预测的优势方法和技术有机地融合起来,以期形成一种新的生物数据分类预测综合系统框架,基于此框架未来发展出一种可适应强、可解释性好以及计算效率高的新型智能预测系统。论文工作的主要成果表现在以下几个方面:1.针对海量数据的复杂生物数据分类预测,本论文提出了一个新型的基于粒计算的支持向量机预测模型(SVMGC)。该模型利用粒计算理论、聚类算法和先进的统计学习方法,在由聚类算法所智能分割的信息粒上建立各个SVMGC模型,使得各个SVMGC模型更简单与专一,并易于并行化,从而分解海量数据的处理,同时有效地解决了海量数据的多分类问题。2.在生物计算的可解释性方面,本文提出了规则生成模型SVMDT,将支持向量机和决策树结合进行规则抽取,应用于蛋白质结构的预测结果解释。这样,既可发挥支持向量机泛化能力强的优势,又利用了决策树可解释性好的特点。实验结果表明,SVMDT的可理解性高于SVM,其泛化能力优于决策树。更重要的是这些规则显示了重要的生物学意义,能有效地指导“湿实验”。3.面对产生的数量巨大的规则集,研究者难于解释与分析。为此,本论文提出了规则聚集与超级规则生成算法(CSuperRule)。利用k-mean聚类算法,基于规则相似度对大量规则进行聚类,然后对各个簇的规则进行聚集以产生新的超级规则。这些超级规则代表了规则的摘要和潜在的分类关系,并具有较高的预测精度。由于这些超级规则来自于聚类,研究者易于理解总的趋势,而忽略单个规则可能引起的噪音。同时,不仅可以关注超级规则所代表的领域关键方面,而且可以有选择性地查看对应的原始规则的细节,从而方便了研究者对规则的分析与使用。4.为了降低生物数据中的噪音和孤立点对预测的影响,本文提出了基于遗传算法和惊奇模式的加权主动学习模型。根据样本数据的惊奇模式对输入样本点加权,从而使不同的数据点在训练学习时产生不同的贡献;利用遗传算法进行优化搜索参数,并利用阵列机实现了遗传算法的并行化,加快了训练进程。通过支持向量机的主动学习,从而提高了支持向量机抵抗噪音和孤立点影响的能力。实验研究结果表明本文所提出的模型是有效的并具有良好的发展前景。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 计算生物学的产生及发展
  • 1.1.2 蛋白质结构预测
  • 1.1.3 需要研究新的预测方法
  • 1.2 研究现状
  • 1.2.1 实验统计法
  • 1.2.2 最近邻法(Nearest Neighbor)
  • 1.2.3 基于隐马尔夫链(Hidden Markov Models)
  • 1.2.4 神经网络(Neural Network)
  • 1.2.5 基于核函数的方法(Kernel-Based Methods)
  • 1.2.6 预测方法的汇总与分析
  • 1.2.7 在计算生物学中SVM面临的问题
  • 1.3 本文主要研究内容
  • GC)技术'>1.3.1 基于粒计算的支持向量机(SVMGC)技术
  • 1.3.2 规则生成与预测理解技术
  • 1.3.3 基于遗传算法和惊奇模式的加权主动学习技术
  • 1.4 论文工作的主要成果
  • 1.5 论文的组织结构
  • 第二章 相关研究基础
  • 2.1 蛋白质结构
  • 2.2 蛋白质结构预测
  • 2.2.1 蛋白质二级结构预测
  • 2.2.2 蛋白质局部三级结构预测
  • 2.3 统计学习理论
  • 2.3.1 学习问题的表示
  • 2.3.2 经验风险最小化
  • 2.3.3 统计学习理论的核心内容
  • 2.3.3.1 学习过程一致性的条件
  • 2.3.3.2 学习VC 维与泛化性的界
  • 2.3.3.3 结构风险最小化原则
  • 2.4 支持向量机
  • 2.4.1 线性支持向量机-最优分类面
  • 2.4.2 线性不可分支持向量机-软分类间隔
  • 2.4.3 非线性支持向量机-核函数
  • 2.5 本章小结
  • GC)'>第三章 基于粒计算的支持向量机(SVMGC)
  • 3.1 问题的提出
  • 3.2 相关的研究
  • 3.2.1 支持向量机中大容量数据快速处理方法
  • 3.2.1.1 (QP)问题分解
  • 3.2.1.2 训练样本选择
  • 3.2.2 支持向量机中多分类问题处理方法
  • GC)模型'>3.3 基于粒计算的支持向量机(SVMGC)模型
  • 3.3.1 粒计算与信息粒
  • GC 模型'>3.3.2 在信息粒中建立SVMGC 模型
  • 3.3.2.1 预测精度的计算及粒簇组的划分
  • GC 模型的建立算法'>3.3.2.2 SVMGC 模型的建立算法
  • GC 模型进行预测'>3.3.3 根据SVMGC 模型进行预测
  • 3.4 实验评价
  • 3.4.1 训练数据集与独立的测试集
  • 3.4.2 结果与分析
  • 3.5 本章小结
  • 第四章 规则生成与预测理解技术
  • 4.1 引言
  • 4.2 相关研究
  • 4.3 支持向量机与决策树相结合的规则生成算法
  • 4.3.1 决策树
  • DT 算法描述'>4.3.2 SVMDT 算法描述
  • 4.4 蛋白质二级结构预测规则生成
  • 4.4.1 特征空间转换
  • 4.4.2 实验设置与结果分析
  • 4.4.3 具有生物意义的蛋白质二级结构预测规则集
  • 4.5 跨膜蛋白质片段结构预测规则生成
  • 4.5.1 数据集与特征空间转换方案
  • 4.5.2 跨膜蛋白质片段结构预测规则生成实验
  • 4.5.3 用于跨膜蛋白质二级结构预测理解的规则集
  • 4.6 规则聚集和超级规则的生成
  • 4.6.1 超级规则生成算法
  • 4.6.2 实验结果与分析
  • 4.7 本章小结
  • 第五章 基于遗传算法和惊奇模式的加权主动学习
  • 5.1 引言
  • 5.2 相关研究
  • 5.3 基于遗传算法和惊奇模式的加权主动学习
  • 5.3.1 加权支持向量机
  • 5.3.2 惊奇模式的产生
  • 5.3.3 样本权重的计算
  • 5.3.4 遗传算法优化选择参数
  • SPWSVM)'>5.4 加权主动学习模型(GASPWSVM)
  • 5.4.1 模型的建立
  • 5.4.2 实验与结果分析
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 论文总结
  • 6.2 进一步的研究工作
  • 参考文献
  • 附录一:攻读博士学位期间发表及录用的论文
  • 附录二:攻读博士学位期间所参加的研究项目
  • 相关论文文献

    • [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [19].浅析数据挖掘[J]. 内江科技 2020(06)
    • [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
    • [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)

    标签:;  ;  ;  ;  ;  ;  ;  

    面向蛋白质结构预测的计算生物学技术研究
    下载Doc文档

    猜你喜欢