蛋白质序列特征提取及其在功能预测中的应用

蛋白质序列特征提取及其在功能预测中的应用

论文摘要

特征提取和分类算法是蛋白质功能预测的核心步骤。蛋白质功能的确定有助于阐明生命体在生理或病理条件下的变化机制,并且对于疾病预防和药物开发等方面都有着十分重要的推动作用。随着生物信息学的不断发展以及相关数据的大量积累,使用科学计算方法对未知蛋白质进行功能预测成为后基因组时代生物信息学中的重要研究课题,所以蛋白质序列的特征提取和分类算法也成为当前生命科学研究的首要任务之一。本课题主要对蛋白质功能预测中的序列特征提取方法、分类算法进行研究,并设计适当的特征提取方法和分类算法在蛋白质序列数据上进行功能预测的实验。本文的主题工作包括:1.提出了一种基于BLAST比对的特征提取方法。本方法打破了现有的基于BLAST序列比对的特征提取模式,利用B12Seq的相似性分析结果,得到评价片段相似性的E-Value数列和Score数列。根据两者所代表的意义以及组成特点,提出一种新颖的蛋白质序列特征提取的方法。为了证明算法的有效性,将此方法与现有的此类特征提取方法分别应用于蛋白质功能预测的实验,实验结果证明新方法更全面、准确的体现了序列特征,有助于取得更高的预测准确率。2.提出了一种基于距离权重的分类算法。该分类方法的思想是:在传统K近邻算法的基础上加以改进,为每个近邻赋予一定的决策权重,将近邻序列与未知序列的相似距离作为权重的参数。分类时,近邻序列的数量与近邻序列的权重都起到了一定的决策作用。将该分类算法与基于分组重量编码的特征提取算法相结合,进行蛋白质序列的功能,预测。实验结果表明:这种方法具有数学模型简单,计算复杂度低,分类准确率较高等优点。

论文目录

  • 摘要
  • Abstract
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 研究现状
  • 1.3 论文主要工作及结构安排
  • 第2章 蛋白质功能预测方法
  • 2.1 蛋白质序列
  • 2.1.1 蛋白质的基本组成单位-氨基酸
  • 2.1.2 氨基酸的分类
  • 2.2 蛋白质序列数据集
  • 2.2.1 PIR蛋白质信息资源
  • 2.2.2 SWISS-PROT蛋白质的序列和注释
  • 2.3 特征提取方法
  • 2.3.1 基于氨基酸组成和位置的特征提取方法
  • 2.3.2 基于氨基酸物化特性的特征提取方法
  • 2.3.3 其他特征提取方法
  • 2.4 相似性度量方法
  • 2.4.1 距离函数
  • 2.4.2 相似系数函数
  • 2.5 分类算法
  • 2.6 小结
  • 第3章 基于BLAST比对的特征提取方法
  • 3.1 序列比对
  • 3.1.1 双序列比对
  • 3.1.2 多序列比对
  • 3.1.3 打分方案
  • 3.2 BLAST
  • 3.3 Bl2Seq
  • 3.4 基于BLAST比对的特征提取
  • 3.4.1 算法思想
  • 3.4.2 Bl2Seq比对数据
  • 3.4.3 计算标准差权重
  • 3.4.4 计算整体相似度
  • 3.4.5 实验及结果分析
  • 3.5 小结
  • 第4章 改进的K近邻算法在蛋白质功能预测中应用
  • 4.1 K近邻算法
  • 4.2 改进的K近邻算法
  • 4.2.1 基于分组重量编码的特征提取
  • 4.2.2 基于距离权重的K近邻算法思想
  • 4.2.3 实验及结果分析
  • 4.3 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A 攻读学位期间所发表的学术论文和参加的项目
  • 相关论文文献

    • [1].蛋白质序列与蛋白质结构关系的研究[J]. 河南教育学院学报(自然科学版) 2017(04)
    • [2].基于小波分析的蛋白质序列分形研究[J]. 科技信息 2009(33)
    • [3].基于数据挖掘的蛋白质序列分析研究[J]. 信息技术与信息化 2017(06)
    • [4].利用蛋白质序列模式识别改善谷氨酸棒杆菌基因组注释[J]. 工业微生物 2014(03)
    • [5].一种新的蛋白质序列二维图形表示方法及应用[J]. 绥化学院学报 2013(11)
    • [6].蛋白质序列基于k-字的数值刻画及应用[J]. 浙江农业学报 2014(06)
    • [7].蛋白质序列图形变换及其相似性聚类分析[J]. 生命科学研究 2018(03)
    • [8].粒计算理论下的进化树建模与应用探讨[J]. 白城师范学院学报 2019(10)
    • [9].蛋白质序列的矩阵图谱表达[J]. 生命科学研究 2011(02)
    • [10].对称蛋白质序列与结构关系研究[J]. 生命科学 2010(11)
    • [11].蛋白质序列的一类新的图形表示[J]. 黑龙江生态工程职业学院学报 2008(06)
    • [12].甲型流感病毒蛋白质序列的长记忆模型[J]. 江南大学学报(自然科学版) 2012(06)
    • [13].蛋白质序列的特征周期研究[J]. 生物物理学报 2008(02)
    • [14].基于功率谱的蛋白质序列特征提取新方法[J]. 食品与生物技术学报 2018(11)
    • [15].AI背景下蛋白质序列音乐研究[J]. 艺术教育 2019(06)
    • [16].基于矩阵图谱表达法的蛋白质序列的相似性分析[J]. 计算机工程与应用 2011(07)
    • [17].DNA和蛋白质序列数据分析工具(第三版)[J]. 新疆农业科学 2012(07)
    • [18].AI绘制蛋白质序列音乐流程及彩色二维谱[J]. 音乐生活 2020(11)
    • [19].甲型流感病毒HA蛋白质序列的预测[J]. 食品与生物技术学报 2013(08)
    • [20].P53基因蛋白质序列的相似性及其聚类分析[J]. 计算机与应用化学 2013(09)
    • [21].蛋白质序列在频率域上的一种特征提取方法[J]. 南京工业大学学报(自然科学版) 2013(06)
    • [22].基于加权决策树的蛋白质序列分类算法研究[J]. 计算机与数字工程 2012(05)
    • [23].蛋白质序列的图形表示及相似性分析[J]. 浙江农业学报 2010(05)
    • [24].一种新的蛋白质结构类预测方法[J]. 生物信息学 2012(04)
    • [25].荣昌猪SLA-DQB基因β1结构域突变分析及蛋白质序列模式预测[J]. 畜牧兽医学报 2012(08)
    • [26].基于TIGA_S4VM改进算法的蛋白质序列识别方法[J]. 山东大学学报(工学版) 2014(01)
    • [27].基于密码子特征的蛋白质序列图形表示[J]. 浙江理工大学学报(自然科学版) 2018(04)
    • [28].不同特征描述下H1N1病毒血凝素蛋白序列的比较分析[J]. 生命科学研究 2016(02)
    • [29].基于一种新的伪氨酸组成预测蛋白质折叠速率[J]. 大连交通大学学报 2015(03)
    • [30].基于极限学习机的蛋白质相互作用预测[J]. 枣庄学院学报 2017(05)

    标签:;  ;  ;  ;  ;  

    蛋白质序列特征提取及其在功能预测中的应用
    下载Doc文档

    猜你喜欢