生物信息学中多标号不平衡分类问题的研究

生物信息学中多标号不平衡分类问题的研究

论文摘要

多标号不平衡问题是机器学习中的一类重要问题。许多实际问题如文本分类、生物信息学中的亚细胞定位等,都涉及到多标号不平衡问题。而传统的大多数分类器都是针对单标号平衡问题设计的,无法很好地处理多标号不平衡问题。蛋白质亚细胞定位问题是生物信息学中的一个重要问题。由于蛋白质的亚细胞位置和它的功能密切相关,因此了解蛋白质的亚细胞定位对了解蛋白质的功能是非常有帮助的。但是由于使用传统的实验手段进行亚细胞位置的测定费时费力,因此研究用机器学习的方法根据蛋白质氨基酸序列信息进行亚细胞位置预测是非常必要的。然而亚细胞定位是一个典型的多标号不平衡问题,即部分位置的蛋白质数量远远多于其他位置,且一个蛋白质可能出现在多个亚细胞位置。大多数传统的学习算法都无法很好的解决该类问题,这给解决蛋白质亚细胞定位问题带来了一定的困难。本文使用了最小最大模块化(Min-Max Modular, M3)网络来解决亚细胞定位问题。M3网络是一种能够有效解决大规模复杂问题的分类器模型。它能够将复杂问题分解成一系列简单的容易解决的子问题,这些子问题相互之间是独立的,可以并行处理。在预测阶段,这些子问题的输出可以通过两条基本的规则合并起来,得到原问题的解。实验表明M3网络在解决亚细胞定位问题上比传统的SVM分类器在分类精度上有了一定的提高。尤其是对于那些很小的类,传统的SVM分类器仅能达到很低的准确率,而在使用了M3网络进行模块分解后,分类的准确率有了明显的提高。此外,实验还表明,M3网络在响应速度上比传统的分类器也有了明显的提高。而且M3网络还具有可以并行计算的特点,分解产生的子模块可以独立的并行计算,大大提高了计算速度。这个优势也是传统的分类不具备的。同时我们还在M3网络的基础上提出了多种模块分解策略来提高M3网络分类的性能。这些方法包括超平面分解,PCA超平面分解和均等聚类分解。它们的特点是利用了样本在特征空间分布上的统计信息,从而有

论文目录

  • 摘要
  • ABSTRACT(英文摘要)
  • 主要符号对照表
  • 第一章 绪论
  • 1.1 多标号不平衡分类问题及其研究现状
  • 1.1.1 多标号问题
  • 1.1.2 不平衡问题
  • 1.2 生物信息学中的多标号不平衡问题
  • 1.2.1 生物信息学的发展现状
  • 1.2.2 蛋白质亚细胞定位问题
  • 1.3 本文的研究内容
  • 第二章 亚细胞定位的主要方法
  • 2.1 利用氨基酸组分和氨基酸对进行亚细胞定位
  • 2.2 基于基因本体论和功能域信息的亚细胞定位
  • 2.2.1 基因本体论简介
  • 2.2.2 利用基因本体论信息进行亚细胞定位
  • 2.3 利用中文分词技术进行特征提取的亚细胞定位方法
  • 第三章 最小最大模块化网络
  • 3.1 任务分解
  • 3.1.1 将多类问题分解为二类问题
  • 3.1.1.1 一对一分解
  • 3.1.1.2 一对其他分解
  • 3.1.2 进一步分解二类问题
  • 3.2 合并子问题
  • 3.2.1 使用M3网络合并子问题
  • 3.2.1.1 MIN单元
  • 3.2.1.2 MAX单元
  • 3.2.2 将二类问题还原为多类问题
  • 3网络解决多标号不平衡问题'>3.3 用M3网络解决多标号不平衡问题
  • 第四章 分解策略
  • 4.1 随机分解
  • 4.2 超平面分解
  • 4.3 PCA超平面分解
  • 4.4 聚类算法
  • 4.4.1 K-Means聚类算法
  • 4.4.2 均等聚类算法
  • 4.5 根据样本的先验知识划分模块
  • 第五章 实验方法
  • 5.1 实验数据
  • 5.1.1 SWISS-PROT蛋白质数据库简介
  • 5.1.2 SWISS-PROT蛋白质数据结构
  • 5.1.3 构造数据集
  • 5.2 分类器
  • 5.2.1 统计学习理论
  • 5.2.2 支持向量机
  • 5.2.2.1 最佳分离超平面
  • 5.2.2.2 非线性可分的分离超平面
  • 5.2.2.3 支持向量机
  • 5.3 特征提取方法
  • 5.4 分解策略
  • 5.5 交叉验证
  • 5.5.1 保留法
  • 5.5.2 k折交叉验证
  • 5.5.3 留一法交叉验证
  • 5.6 评价标准
  • 第六章 实验结果与分析
  • 6.1 模块大小对分类结果的影响
  • 6.2 不同分解策略之间的比较
  • 6.3 响应速度的比较
  • 第七章 总结与展望
  • 7.1 本文的主要贡献
  • 7.2 进一步的研究工作
  • 参考文献
  • 致谢
  • 个人简历、在学期间的研究成果及发表的论文
  • 相关论文文献

    • [1].最大度为3的图的L(2,1)-边标号的有效算法[J]. 绍兴文理学院学报(自然科学) 2020(01)
    • [2].图形密码中一类特殊图的几种标号[J]. 吉林大学学报(理学版) 2020(02)
    • [3].外平面图的(2,1)-点面标号问题[J]. 浙江师范大学学报(自然科学版) 2020(02)
    • [4].一类积图的局部边路替换图的L(2,1)-标号[J]. 数学理论与应用 2019(01)
    • [5].图(p≤9)的边幻和全标号[J]. 大连理工大学学报 2020(04)
    • [6].态势标绘系统标号重用设计[J]. 软件导刊 2020(07)
    • [7].单圈图的边幻和全标号[J]. 山东大学学报(理学版) 2020(09)
    • [8].一类最大度为3的图的L(2,1)-边标号的有效算法[J]. 绍兴文理学院学报(自然科学) 2016(03)
    • [9].最大度为3的树的L(2,1)-标号数的一个刻画[J]. 数学学报(中文版) 2016(05)
    • [10].调和标号的自然推广[J]. 数学的实践与认识 2016(12)
    • [11].探讨斐波纳契毛毛虫树的边标号[J]. 西北大学学报(自然科学版) 2016(05)
    • [12].图S*的边幻和标号以及超边幻和标号[J]. 佛山科学技术学院学报(自然科学版) 2014(06)
    • [13].关于树的二分优美标号[J]. 兰州大学学报(自然科学版) 2014(06)
    • [14].图的(2,1)-点面标号[J]. 浙江师范大学学报(自然科学版) 2015(02)
    • [15].关于图C_n*S_m的巧妙性的研究[J]. 数学学习与研究 2015(23)
    • [16].分房风波[J]. 数学小灵通(5-6年级版) 2015(12)
    • [17].最大度为7的哈林图的L(2,1)-标号[J]. 华东师范大学学报(自然科学版) 2019(01)
    • [18].关于含参数的边魔幻优美树[J]. 应用数学学报 2018(02)
    • [19].关于国际上不同标号水泥用量占比问题的诤言[J]. 水泥 2018(04)
    • [20].手镯图的L(2,1)—标号[J]. 河北科技大学学报 2018(04)
    • [21].3类图的优美标号[J]. 西南师范大学学报(自然科学版) 2016(12)
    • [22].灯笼图的奇优美标号[J]. 数学的实践与认识 2017(09)
    • [23].拟梯子的L(1,1)-标号[J]. 辽宁大学学报(自然科学版) 2015(04)
    • [24].改进标号法在网络计划技术中的应用[J]. 山西建筑 2014(35)
    • [25].标号“-”、“~”的规范用法及其他[J]. 成功(教育) 2008(11)
    • [26].三相变压器联结组标号的判定技巧[J]. 考试周刊 2011(22)
    • [27].两个完全二部图的匹配和的L(2,1)-标号[J]. 南阳师范学院学报 2014(03)
    • [28].一个路与一个完全图的直积的L(2,1)-标号[J]. 内江师范学院学报 2014(04)
    • [29].几类联图的(2,1)-全标号[J]. 江南大学学报(自然科学版) 2014(04)
    • [30].如何正确选用燃油标号[J]. 河北农机 2013(01)

    标签:;  ;  ;  ;  ;  

    生物信息学中多标号不平衡分类问题的研究
    下载Doc文档

    猜你喜欢