基于基因表达谱数据和氨基酸序列的特征提取方法研究

基于基因表达谱数据和氨基酸序列的特征提取方法研究

论文摘要

人类基因组计划实施以来已积累了海量的生物序列数据。随着现代生物技术的快速发展,高通量检测工具日趋完善,后基因组研究的瓶颈已不再是生物序列数据的产生和获取,而是如何对现有的生物序列数据进行有效的信息挖掘和分析。只有利用新的、有效的数据挖掘和分析工具才能从海量的生物学数据中提炼出有用的生物学知识,才能弄清楚它们所蕴含的结构和功能信息,进而彻底了解它们所表达的生物学意义。模式识别技术是揭示核酸和蛋白质序列数据中所蕴含的生物学意义的基本方法之一。其出发点是找出不同序列间的相似片段,从而归结出序列片段中蕴含的特征模式,进而推断出该特征模式与已知的结构和功能之间的内在联系。对于基因表达谱数据而言,模式识别就是利用基因的数据分布特征信息找出相关的特征基因。对于蛋白质序列而言,模式识别就是利用蛋白质序列的某些特征模式识别相关蛋白质的性质。本文通过生物信息学领域三个比较热点的问题介绍了自己在这方面的相关研究和工作。特征基因提取方法对肿瘤检测来说已经成为当今研究肿瘤分子诊断的热点,但由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿瘤特征基因选择成为一件有挑战性的工作。本章提出一种新的寻找特征基因的方法,首先基于区间间隔或覆盖比的方法来初步选出一些特征基因,而后删掉其中的冗余基因,达到以最少的基因数得到更高的分类准确率。实验采用了三种肿瘤样本集来验证新算法的有效性。针对这三个样本集,只要2或3个特征基因就能得到100%的5-折交叉验证识别准确率。基于氨基酸序列的特征向量提取方法对研究蛋白质的结构和功能有着重要的作用。不论在原核生物还是真核生物中,信号肽几乎控制着所有蛋白质的分泌途径,为此它的发现对现代细胞生物学研究有着重大的影响。在建立它的特征向量时,我们在伪氨基酸模型的基础上加入了局部氨基酸信息,使实验结果有了很大的提高,整体预测结果达到了97%以上。在其剪切点的判断问题上考虑到数据的不平衡性,对位置权矩阵进行了改进,结果也有所改善。酶作为一种重要的生物催化剂在生物代谢过程中扮演着非常重要的角色,并且一种酶的功能与它所属的类或子类有着密切的关系。所以,酶的分类问题就显得非常有用。对于酶的特征向量,我们是在伪氨基酸模型的基础上引入相邻氨基酸信息同时融入更多的生物化学特征来建立的,同时结合优良的多分类器-最优证据理论-KNN分类器,使分类性能达到83%以上。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 引言
  • 1.1 生物信息学的概念
  • 1.2 生物信息学的主要研究内容
  • 1.3 生物信息学研究的现状和趋势
  • 1.4 生物信息学研究的意义
  • 第2章 基础知识
  • 2.1 支持向量机简介
  • 2.2 支持向量机常用核函数及参数
  • 2.3 支持向量机特点
  • 2.4 判别效果的评估
  • 第3章 肿瘤表达数据分析中的特征基因提取
  • 3.1 研究背景和意义
  • 3.2 肿瘤亚型分类问题描述
  • 3.3 特征基因提取过程及方法
  • 3.3.1 数据归一化处理
  • 3.3.2 区间间隔或覆盖比度量法
  • 3.3.3 去冗算法
  • 3.4 数据集、结果和讨论
  • 3.5 结论
  • 第4章 信号肽及其剪切点预测的特征向量提取
  • 4.1 研究背景和意义
  • 4.2 信号肽及其结构
  • 4.3 数据集
  • 4.4 信息肽及其剪切点的预测
  • 4.4.1 提取蛋白质特征序列的方法
  • 4.4.2 改进的位置权矩阵方法
  • 4.5 结果与讨论
  • 4.6 结论
  • 第5章 酶分类问题的特征向量提取
  • 5.1 研究背景和意义
  • 5.2 数据集
  • 5.3 蛋白质特征向量提取方法
  • 5.3.1 酶的特征向量提取方法
  • 5.3.2 最优证据理论-K 近邻算法
  • 5.4 结果与讨论
  • 5.5 结论
  • 结论
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文及研究成果
  • 相关论文文献

    • [1].重叠特征策略与参数优化的运动想象脑电模式识别[J]. 模式识别与人工智能 2020(08)
    • [2].“模式识别”在高三实验复习教学中的应用[J]. 教学考试 2020(06)
    • [3].利用“模式识别”解“隐形圆”类题[J]. 数理化解题研究 2020(19)
    • [4].数学解题中“模式识别”及其应用——基于“怎样解题表”的实践研究[J]. 初中数学教与学 2020(05)
    • [5].谈“模式识别”在提升学生解题能力方面的应用[J]. 中学数学教学参考 2016(33)
    • [6].模式识别函数组合,巧解函数不等式[J]. 中学数学教学参考 2017(12)
    • [7].重视“模式识别”的作用 提高“变式教学”的效率[J]. 数学通讯 2016(20)
    • [8].精彩优质课堂我做主——《模式识别快乐学习之旅》磨课体会[J]. 发明与创新(教育信息化) 2017(01)
    • [9].模式识别学习“激趣”学习任务[J]. 中小学电教(下半月) 2017(07)
    • [10].例谈“模式识别”在中考中的应用[J]. 中小学数学(初中版) 2008(03)
    • [11].基于正常人的肌电模式识别抗力变化的鲁棒性研究[J]. 中国康复医学杂志 2020(02)
    • [12].模式识别解题的理论探讨[J]. 数学通报 2010(03)
    • [13].模式识别在机器人技术中的应用[J]. 科技传播 2018(19)
    • [14].模式识别的概述及其应用[J]. 通讯世界 2018(08)
    • [15].距离模式识别图的判定[J]. 数学杂志 2017(06)
    • [16].模式识别:突破中考的快捷键[J]. 数学教学通讯 2010(25)
    • [17].从一种数学模型的探究谈模式识别的“立”与“破”[J]. 中学数学月刊 2012(05)
    • [18].利用“模式识别”巧解题[J]. 中学数学教学参考 2015(Z2)
    • [19].医学模式识别课程建设的探索[J]. 医学信息 2010(03)
    • [20].结合科研的“模式识别”研究生教学改革探索与实践[J]. 科技视界 2019(06)
    • [21].机载火控雷达工作模式识别[J]. 电子测量技术 2016(02)
    • [22].“模式识别新技术研讨课”教学探索思考[J]. 教育现代化 2018(45)
    • [23].高校模式识别课程改革与探讨[J]. 电脑知识与技术 2019(20)
    • [24].浅谈模式识别在图像识别中的应用[J]. 电子测试 2017(23)
    • [25].基于二次曲面拟合的图像颜色渐变模式识别[J]. 广东科技 2017(01)
    • [26].解题应多一些模式,少一些模式化[J]. 数学教学通讯 2013(36)
    • [27].基于数学问题解决的模式识别解题策略的探析与思考[J]. 中学数学研究 2014(10)
    • [28].2014年全国模式识别学术会议[J]. 智能系统学报 2014(01)
    • [29].2009年全国模式识别学术会议暨中日韩模式识别学术研讨会征文通知[J]. 模式识别与人工智能 2009(02)
    • [30].基于驾驶员意图及行驶场景判断的智能驾驶模式识别策略[J]. 汽车实用技术 2020(09)

    标签:;  ;  ;  ;  ;  

    基于基因表达谱数据和氨基酸序列的特征提取方法研究
    下载Doc文档

    猜你喜欢