郭庭炜:基于信息熵与深度森林的蛋白质亚细胞位置预测论文

郭庭炜:基于信息熵与深度森林的蛋白质亚细胞位置预测论文

本文主要研究内容

作者郭庭炜(2019)在《基于信息熵与深度森林的蛋白质亚细胞位置预测》一文中研究指出:蛋白质的亚细胞位置信息能够为理解其生物学功能提供有力线索,在药物设计、病理分析等领域的研究中有着重要作用。在后基因组时代的当下,蛋白质测序技术取得了长足的发展。新发现蛋白质的数量正以惊人的速度飞速增长。如何快速准确的获取蛋白质的亚细胞位置信息已经成为了蛋白质组学中的一项关键任务。现有的蛋白质亚细胞位置识别方法主要分为基于生物化学实验的方法和基于计算的方法。其中,基于生物化学实验的方法是目前获取蛋白质亚细胞位置信息的主要手段。但是由于时间成本巨大,此类方法已经难以满足人们在识别效率方面的需求。与之相对,基于计算方法的出现为高效解决海量蛋白质序列的亚细胞位置识别问题提供了可行方案。近年来,人们对基于计算的蛋白质亚细胞位置预测方法做出了大量的研究。然而,受制于特征提取技术以及分类算法的性能,相关方法的预测准确率仍待提高。针对这一现状,本文在信息熵与深度森林的基础上对现有蛋白质亚细胞位置预测技术进行改进。在蛋白质特征提取方面,本文在分析了现有蛋白质特征提取技术缺陷的基础上,探究了基于信息熵的改进方案的有效性。在分类算法的构建方面,本文首先讨论了深度森林对蛋白质亚细胞位置预测问题的适用性,随后针对性的提出了两种改进模型以进一步提高最终预测结果的准确率。本文主要工作如下:(1)针对现有蛋白质序列信息特征提取技术以及进化信息特征提取技术的缺陷,提出了一种新的蛋白质特征提取方法,即IE-MoAC-PFR方法。其中,对于蛋白质序列信息特征的提取,针对传统n-gram-frequency特征不能有效表示蛋白质序列中氨基酸位置信息的缺陷,IE-MoAC-PFR方法使用信息熵刻画不同氨基酸片段在蛋白质序列中的分布情况,从而提升特征向量对蛋白质序列信息的反映能力。对于蛋白质进化信息特征的提取,针对传统基于自协方差的位置特异性矩阵的特征转换方法忽略了蛋白质序列中不同氨基酸在进化过程中的关系信息,IE-MoAC-PFR方法将自协方差扩展到位置特异性矩阵的不同列上。最后,为了能够更好地将蛋白质的序列信息和进化信息用于亚细胞位置的预测当中,IE-MoAC-PFR方法将所提取的蛋白质序列信息特征与进化信息特征结合生成蛋白质最终的特征向量。(2)针对蛋白质亚细胞位置预测问题小样本高维度的特性,提出一种深度森林改进算法,即FS-DF算法。为避免蛋白质高维稀疏特征向量中的无关特征以及噪声特征对模型最终预测准确率的影响,FS-DF算法将基于基尼系数的特征选择机制引入到深度森林的层级结构中。通过逐层筛除原始蛋白质特征向量中的无关特征以及噪声特征,相较于深度森林方法,FS-DF方法能够极大提升各层模型的性能,并在此基础上进行更为有效的表示学习。(3)FS-DF算法中,随着层级的不断加深,被筛除特征的不断增多可能会导致部分有用信息的丢失。为了更加充分地利用蛋白质特征向量中所蕴涵的亚细胞位置相关信息,从寻找并利用最优特征子集的角度出发,提出了一种新的深度森林改进算法,即Tabu-DF算法。在Tabu-DF算法中,面向最优特征子集的禁忌搜索机制被用于改进深度森林的层级结构。基于禁忌搜索可以避免陷入局部最优解的特性,Tabu-DF算法能够更有效地处理高维稀疏的蛋白质特征向量,并进一步提升最终预测结果的准确率。本文在Plant,NonPlant以及PsortNeg三个标准数据集上对新提出方法的性能进行了验证。实验结果显示,相较于现有的方法,新提出的方法能够有效提高蛋白质亚细胞位置预测结果的准确率,为相关研究提供更为有效的信息。

Abstract

dan bai zhi de ya xi bao wei zhi xin xi neng gou wei li jie ji sheng wu xue gong neng di gong you li xian suo ,zai yao wu she ji 、bing li fen xi deng ling yu de yan jiu zhong you zhao chong yao zuo yong 。zai hou ji yin zu shi dai de dang xia ,dan bai zhi ce xu ji shu qu de le chang zu de fa zhan 。xin fa xian dan bai zhi de shu liang zheng yi jing ren de su du fei su zeng chang 。ru he kuai su zhun que de huo qu dan bai zhi de ya xi bao wei zhi xin xi yi jing cheng wei le dan bai zhi zu xue zhong de yi xiang guan jian ren wu 。xian you de dan bai zhi ya xi bao wei zhi shi bie fang fa zhu yao fen wei ji yu sheng wu hua xue shi yan de fang fa he ji yu ji suan de fang fa 。ji zhong ,ji yu sheng wu hua xue shi yan de fang fa shi mu qian huo qu dan bai zhi ya xi bao wei zhi xin xi de zhu yao shou duan 。dan shi you yu shi jian cheng ben ju da ,ci lei fang fa yi jing nan yi man zu ren men zai shi bie xiao lv fang mian de xu qiu 。yu zhi xiang dui ,ji yu ji suan fang fa de chu xian wei gao xiao jie jue hai liang dan bai zhi xu lie de ya xi bao wei zhi shi bie wen ti di gong le ke hang fang an 。jin nian lai ,ren men dui ji yu ji suan de dan bai zhi ya xi bao wei zhi yu ce fang fa zuo chu le da liang de yan jiu 。ran er ,shou zhi yu te zheng di qu ji shu yi ji fen lei suan fa de xing neng ,xiang guan fang fa de yu ce zhun que lv reng dai di gao 。zhen dui zhe yi xian zhuang ,ben wen zai xin xi shang yu shen du sen lin de ji chu shang dui xian you dan bai zhi ya xi bao wei zhi yu ce ji shu jin hang gai jin 。zai dan bai zhi te zheng di qu fang mian ,ben wen zai fen xi le xian you dan bai zhi te zheng di qu ji shu que xian de ji chu shang ,tan jiu le ji yu xin xi shang de gai jin fang an de you xiao xing 。zai fen lei suan fa de gou jian fang mian ,ben wen shou xian tao lun le shen du sen lin dui dan bai zhi ya xi bao wei zhi yu ce wen ti de kuo yong xing ,sui hou zhen dui xing de di chu le liang chong gai jin mo xing yi jin yi bu di gao zui zhong yu ce jie guo de zhun que lv 。ben wen zhu yao gong zuo ru xia :(1)zhen dui xian you dan bai zhi xu lie xin xi te zheng di qu ji shu yi ji jin hua xin xi te zheng di qu ji shu de que xian ,di chu le yi chong xin de dan bai zhi te zheng di qu fang fa ,ji IE-MoAC-PFRfang fa 。ji zhong ,dui yu dan bai zhi xu lie xin xi te zheng de di qu ,zhen dui chuan tong n-gram-frequencyte zheng bu neng you xiao biao shi dan bai zhi xu lie zhong an ji suan wei zhi xin xi de que xian ,IE-MoAC-PFRfang fa shi yong xin xi shang ke hua bu tong an ji suan pian duan zai dan bai zhi xu lie zhong de fen bu qing kuang ,cong er di sheng te zheng xiang liang dui dan bai zhi xu lie xin xi de fan ying neng li 。dui yu dan bai zhi jin hua xin xi te zheng de di qu ,zhen dui chuan tong ji yu zi xie fang cha de wei zhi te yi xing ju zhen de te zheng zhuai huan fang fa hu lve le dan bai zhi xu lie zhong bu tong an ji suan zai jin hua guo cheng zhong de guan ji xin xi ,IE-MoAC-PFRfang fa jiang zi xie fang cha kuo zhan dao wei zhi te yi xing ju zhen de bu tong lie shang 。zui hou ,wei le neng gou geng hao de jiang dan bai zhi de xu lie xin xi he jin hua xin xi yong yu ya xi bao wei zhi de yu ce dang zhong ,IE-MoAC-PFRfang fa jiang suo di qu de dan bai zhi xu lie xin xi te zheng yu jin hua xin xi te zheng jie ge sheng cheng dan bai zhi zui zhong de te zheng xiang liang 。(2)zhen dui dan bai zhi ya xi bao wei zhi yu ce wen ti xiao yang ben gao wei du de te xing ,di chu yi chong shen du sen lin gai jin suan fa ,ji FS-DFsuan fa 。wei bi mian dan bai zhi gao wei xi shu te zheng xiang liang zhong de mo guan te zheng yi ji zao sheng te zheng dui mo xing zui zhong yu ce zhun que lv de ying xiang ,FS-DFsuan fa jiang ji yu ji ni ji shu de te zheng shua ze ji zhi yin ru dao shen du sen lin de ceng ji jie gou zhong 。tong guo zhu ceng shai chu yuan shi dan bai zhi te zheng xiang liang zhong de mo guan te zheng yi ji zao sheng te zheng ,xiang jiao yu shen du sen lin fang fa ,FS-DFfang fa neng gou ji da di sheng ge ceng mo xing de xing neng ,bing zai ci ji chu shang jin hang geng wei you xiao de biao shi xue xi 。(3)FS-DFsuan fa zhong ,sui zhao ceng ji de bu duan jia shen ,bei shai chu te zheng de bu duan zeng duo ke neng hui dao zhi bu fen you yong xin xi de diu shi 。wei le geng jia chong fen de li yong dan bai zhi te zheng xiang liang zhong suo wen han de ya xi bao wei zhi xiang guan xin xi ,cong xun zhao bing li yong zui you te zheng zi ji de jiao du chu fa ,di chu le yi chong xin de shen du sen lin gai jin suan fa ,ji Tabu-DFsuan fa 。zai Tabu-DFsuan fa zhong ,mian xiang zui you te zheng zi ji de jin ji sou suo ji zhi bei yong yu gai jin shen du sen lin de ceng ji jie gou 。ji yu jin ji sou suo ke yi bi mian xian ru ju bu zui you jie de te xing ,Tabu-DFsuan fa neng gou geng you xiao de chu li gao wei xi shu de dan bai zhi te zheng xiang liang ,bing jin yi bu di sheng zui zhong yu ce jie guo de zhun que lv 。ben wen zai Plant,NonPlantyi ji PsortNegsan ge biao zhun shu ju ji shang dui xin di chu fang fa de xing neng jin hang le yan zheng 。shi yan jie guo xian shi ,xiang jiao yu xian you de fang fa ,xin di chu de fang fa neng gou you xiao di gao dan bai zhi ya xi bao wei zhi yu ce jie guo de zhun que lv ,wei xiang guan yan jiu di gong geng wei you xiao de xin xi 。

论文参考文献

  • [1].基于分段信息融合的蛋白质亚细胞位点测方法[D]. 王伟.上海师范大学2011
  • [2].基于多特征融合的蛋白质亚细胞多位点定位预测[D]. 瞿绪米.济南大学2015
  • [3].基于马尔科夫模型的蛋白质亚细胞位点预测方法[D]. 赵娟.上海师范大学2011
  • [4].基于PSSM和GO特征的蛋白质亚细胞多标签定位预测[D]. 刘冰静.福州大学2016
  • [5].不同镉耐性水稻中镉的亚细胞和分子分布[D]. 王芳.南京农业大学2009
  • [6].植物对多环芳烃的代谢作用[D]. 张翼.南京农业大学2009
  • [7].基于序列裂解位点的凋亡蛋白亚细胞定位方法研究[D]. 郑利.上海师范大学2013
  • 读者推荐
  • [1].基于注意力卷积神经网络与深度森林的交通安全状态预测方法研究[D]. 王博宸.江苏大学2019
  • [2].基于信息熵的适应性随机测试用例生成算法研究[D]. 占徐政.江西财经大学2019
  • [3].霉变玉米高光谱检测特征信息优化选择及毒素可视化研究[D]. 王光辉.河南科技大学2019
  • [4].基于深度森林的图像超分辨率复原算法研究[D]. 罗志康.浙江理工大学2019
  • 论文详细介绍

    论文作者分别是来自西南大学的郭庭炜,发表于刊物西南大学2019-09-24论文,是一篇关于蛋白质亚细胞位置预测论文,蛋白质特征表示论文,深度森林论文,位置特异性矩阵论文,西南大学2019-09-24论文的文章。本文可供学术参考使用,各位学者可以免费参考阅读下载,文章观点不代表本站观点,资料来自西南大学2019-09-24论文网站,若本站收录的文献无意侵犯了您的著作版权,请联系我们删除。

    标签:;  ;  ;  ;  ;  

    郭庭炜:基于信息熵与深度森林的蛋白质亚细胞位置预测论文
    下载Doc文档

    猜你喜欢