论文摘要
蛋白质组学研究的一个重要任务是在细胞水平上研究探讨蛋白质执行完成、控制生命活动的内在规律,分析蛋白质功能与亚细胞定位、环境的关系,从而更加清楚地认识蛋白质参与生命活动的内在特点。由于蛋白质亚细胞定位预测可以为了解蛋白质功能提供重要线索,目前已成为生物信息学研究的热点问题之一。本文主要以蛋白质亚细胞定位预测为主题,针对蛋白质序列的编码方法、特征选择技术、分类算法以及分泌蛋白信号肽剪切位点识别等几个方面问题进行了研究,其主要内容和创新之处包括:(1)蛋白质序列编码方法研究。蛋白质序列编码是计算机算法分析的基础,也是决定系统预测性能的重要因素,具有重要的生物学意义。经过多年的探索,研究人员提出了各种不同的序列编码方法,其中大部分侧重于多信息资源的综合利用。然而,到目前为止人们还没有找到一种非常有效的方法。为此,本文从序列编码方法入手,利用自相关函数和氨基酸残基的10种生物化学性质,并结合蛋白质序列的氨基酸组成特征和二肽组成特征,构建了一个编码蛋白质序列的混合特征集,提出了一种基于AAindex的蛋白质亚细胞定位方法。自相关函数是一种基于氨基酸索引(amino acid index,AAindex)的特征描述方法,它不仅考虑了氨基酸残基之间的耦合作用,也包含了序列的长度信息,在一定程度上弥补了氨基酸组成和二肽组成所丢失的部分有用信息。基于本文提出的序列编码方法,论文利用最近邻算法对蛋白质亚细胞定位数据进行了测试,取得了良好的预测性能。与同类其它方法相比,本文方法具有一定的优势,说明该方法是可行的。(2)蛋白质特征选择技术研究。无论是分类器的训练过程,还是分类器的识别过程,都要利用样本的特征。而在设计分类系统时,一般情况下可利用的特征集的维数往往很大。如果将这些特征不加分析地全部作为分类特征,识别过程将会有很大的工作量,分类效果也不一定好,甚至会导致特征维数灾难。所以,在数据分析之前进行特征选择过程就显得尤为重要。本文利用特征选择技术对蛋白质亚细胞定位预测问题和G-蛋白耦联受体(G-protein coupled receptors,GPCRs)识别问题进行了探索性研究,分别构建了基于支持向量机的过滤特征选择方法和封装特征选择方法,并利用选出的特征集对蛋白质进行了分类研究。蛋白质特征选择的目的是通过摒弃那些不相关的的或冗余的蛋白质特征,构建更为紧凑的蛋白质序列特征描述方法,以增强识别结果的可理解性和可用性。实验研究表明,利用选择的特征子集不仅可以加快系统的识别速度,而且还有可能提高系统的分类性能,这也证实了特征选择方法的有效性。(3)蛋白质分类算法研究。算法研究一直是生物信息学研究的重点内容,涉及生物信息学的各个领域。对于同样的生物学数据和特征集,选择不同的算法可能会对系统性能产生较大影响。基于实例的学习,典型的如最近邻算法,是机器学习中一种常用的方法。然而在实际的生物信息学问题中,由于训练样本的数量往往是非常有限的,使得最近邻方法的分类性能受到一定限制。因此,本文在最近邻方法的基础上介绍了两类新的模式分类方法,最近特征线和可调近邻方法,并将它们用于蛋白质亚细胞定位预测研究,取得了优于最近邻方法的识别精度。这两类方法在未能获取更多训练样本的情况下,能够通过扩展现有样本描述能力的方式提高系统的分类性能,尤其适合于对小样本数据的识别。上述方法的一个主要缺点是计算量大,不太适合大样本数据的识别。为了缩短运算时间,本文在最近特征线方法的基础上提出了一种称为中心最近邻的模式分类方法。与最近特征线方法相比,这种方法不仅可以大大降低计算的复杂度,而且识别精度也不会明显降低。通过对实际蛋白质数据的分析,中心最近邻方法同样取得了优于最近邻方法的识别精度,证明了该方法的有效性。(4)信号肽剪切位点识别方法研究。无论是在原核生物还是在真核生物中,信号肽都控制着几乎所有蛋白质到分泌通路的入口。它们位于氨基酸序列的N端,在蛋白质转运到细胞膜时被剪切掉。由于数据库中存在大量未经处理的蛋白质数据,信号肽及其剪切位点的识别引起了人们浓厚的兴趣。本文利用隐Markov模型(HMM)研究了模式生物大肠杆菌信号肽剪切位点的识别问题。在整个识别过程中,论文考虑了序列数据的统计特性和信号肽剪切位点附近氨基酸残基之间的耦合规则,将这些生物学知识与隐Markov模型相结合,加入了一个筛选过程,以进一步提高系统的识别精度。本文使用LOOCV方法对系统性能进行了评估,其预测准确率达到了85.6%,取得了理想的识别效果。
论文目录
相关论文文献
- [1].基于Convolutional-LSTM的蛋白质亚细胞定位研究[J]. 计算机科学与探索 2019(06)
- [2].用离散增量结合支持向量机方法预测蛋白质亚细胞定位[J]. 生物信息学 2010(03)
- [3].Akt亚型的亚细胞定位决定了其特异的生物学作用[J]. 生理科学进展 2010(03)
- [4].蛋白质亚细胞定位预测研究综述[J]. 计算机应用研究 2014(02)
- [5].词袋模型在蛋白质亚细胞定位预测中的应用[J]. 食品与生物技术学报 2017(03)
- [6].基于氨基酸约化和统计特征的蛋白质亚细胞定位预测[J]. 生物信息学 2015(02)
- [7].一种根癌农杆菌介导的GFP亚细胞定位方法的优化[J]. 基因组学与应用生物学 2014(01)
- [8].丹参转录因子SmGRAS3的克隆、亚细胞定位和表达分析[J]. 中国中药杂志 2019(22)
- [9].番木瓜eIF4E家族蛋白的亚细胞定位[J]. 热带生物学报 2017(04)
- [10].家蚕蛋白亚细胞定位预测模型的构建及其初步应用[J]. 浙江理工大学学报 2015(03)
- [11].小麦TaGAPDH5基因的亚细胞定位和表达分析[J]. 农业科学研究 2019(01)
- [12].一种新的蛋白质亚细胞定位预测方法[J]. 计算机工程与应用 2012(06)
- [13].运用小波分析对蛋白质进行亚细胞定位预测(英文)[J]. 宁夏大学学报(自然科学版) 2008(03)
- [14].蛋白质亚细胞定位预测中的序列编码技术研究[J]. 计算机科学 2012(S3)
- [15].梭梭HaNAC1基因的亚细胞定位、转录激活及表达分析[J]. 分子植物育种 2019(04)
- [16].水稻OsLecRK基因的亚细胞定位分析[J]. 湖北农业科学 2018(17)
- [17].人钙周期素结合蛋白基因亚细胞定位载体的构建和鉴定[J]. 广东医学 2011(22)
- [18].鸡importin β1基因真核表达载体的构建及亚细胞定位[J]. 中国家禽 2018(04)
- [19].猪PKM2基因的序列分析与组织表达及亚细胞定位[J]. 湖南农业大学学报(自然科学版) 2019(01)
- [20].丙型肝炎病毒核心蛋白反式激活基因2表达产物的亚细胞定位[J]. 中华实验和临床感染病杂志(电子版) 2010(01)
- [21].白魔芋热激转录因子AaHSFA2a和AaHSFA2c的分离、亚细胞定位及表达分析[J]. 分子植物育种 2018(24)
- [22].羊口疮024基因的表达、多抗制备及亚细胞定位[J]. 中国微生态学杂志 2018(10)
- [23].EHV-1皮层蛋白VP22生物信息学分析及亚细胞定位研究[J]. 黑龙江畜牧兽医 2018(21)
- [24].基于集成分类器的凋谢蛋白亚细胞定位预测方法[J]. 计算机与应用化学 2010(05)
- [25].拟南芥细胞分裂素受体AHK3亚细胞定位信号的研究[J]. 华南农业大学学报 2017(06)
- [26].基于三层集成多标记学习的蛋白质多亚细胞定位预测[J]. 计算机应用 2016(08)
- [27].PCA方法在蛋白质亚细胞定位中应用[J]. 大连理工大学学报 2012(03)
- [28].水稻OsUF的基序分析及其亚细胞定位[J]. 农业生物技术学报 2019(02)
- [29].水稻OsNHX5基因的亚细胞定位及表达分析[J]. 热带生物学报 2019(02)
- [30].苹果MdAFS基因亚细胞定位表达载体的构建及分析[J]. 山东农业大学学报(自然科学版) 2017(04)
标签:蛋白质组学论文; 生物信息学论文; 蛋白质亚细胞定位论文; 编码论文; 特征选择论文; 支持向量机论文; 基于实例的学习论文;