基于图形表示的蛋白质编码区识别方法研究

基于图形表示的蛋白质编码区识别方法研究

论文摘要

随着人类基因组计划的实施和基因组测序技术的快速发展,生物学家已得到几百种生物的全基因组序列,这些序列的背后隐藏着丰富的生物学知识和生物学规律。基因组序列测定之后,识别序列中的蛋白质编码基因是进行基因组分析首先要解决的问题,本论文致力于蛋白质编码区(特别是短编码区)的识别,论文从图形特征和分类算法两个方面对蛋白质编码区的识别进行研究。针对短编码序列的识别问题,论文根据碱基在密码子三个位置的偏性和碱基自身物理化学性质的分类,提出新的序列图形表示方法,然后在新图形上,提取了9个有效的面积矩阵特征,并使用支持向量机对人类的短蛋白质编码区进行识别实验。在识别过程中,为了提高识别率通过递增特征选择算法添加了4个统计特征到面积特征中,使识别特征表达的信息更加完备,并采用PCA方法对这13个特征进行降维。实验结果表明,与其他方法相比,该方法使用较少的特征(7个或4个)取得了更好的识别结果。针对传统支持向量机计算量大,对孤立点和噪声数据太敏感的特点,论文使用最小二乘模糊支持向量机代替传统支持向量机进行编码区识别。论文为最小二乘模糊支持向量机设计了一种新的充分考虑了样本与样本之间关系的样本隶属度计算方法,实验结果表明,与传统支持向量机和最小二乘支持向量机相比较,该方法的识别精度更优。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 项目来源
  • 1.2 研究背景和意义
  • 1.3 国内外研究现状
  • 1.4 本文的主要工作和结构安排
  • 1.5 小结
  • 第2章 基因图形表达及编码区识别方法
  • 2.1 与论文相关的生物学知识
  • 2.2 DNA 序列的图形表示
  • 2.2.1 典型的 DNA 序列的图形表示方法
  • 2.2.2 图形的特征矩阵
  • 2.2.3 矩阵不变量
  • 2.2.4 向量之间的距离
  • 2.3 蛋白质编码区的识别方法
  • 2.3.1 特征提取
  • 2.3.2 分类方法
  • 2.4 小结
  • 第3章 基于图形表示的人类基因短编码序列识别方法
  • 3.1 概述
  • 3.2 数据库
  • 3.3 新的序列图形表示
  • 3.3.1 定义
  • V'>3.3.2 YKW 及 YKWV
  • 3.3.3 新图形的性质
  • 3.4 特征提取与特征降维
  • 3.4.1 特征矩阵及矩阵特征的提取
  • 3.4.2 特征选择
  • 3.4.3 PCA 降维
  • 3.5 基于图形表示的编码区识别算法流程
  • 3.6 实验及讨论
  • 3.6.1 实验结果检验标准
  • 3.6.2 基于面积特征的基因识别
  • 3.6.3 基于 S 及 S(i)的基因识别
  • 3.7 小结
  • 第4章 基于最小二乘模糊支持向量机的编码区识别方法
  • 4.1 引言
  • 4.2 最小二乘模糊支持向量机
  • 4.3 隶属度函数
  • 4.3.1 常见的隶属度函数
  • 4.3.2 新的隶属度函数
  • FSVM 的算法流程'>4.4 基于 LSFSVM 的算法流程
  • 4.5 实验及讨论
  • 4.5.1 实验环境
  • 4.5.2 数据库
  • FSVM 的基因识别'>4.5.3 基于 LSFSVM 的基因识别
  • 4.6 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A (攻读学位期间所发表的学术论文和参加的项目)
  • 相关论文文献

    • [1].基于支持向量机的蛋白质编码区辨识[J]. 数据采集与处理 2010(05)
    • [2].基于编码区间的路由协议的研究与设计[J]. 武汉理工大学学报 2008(10)
    • [3].小鼠CD1d2编码区基因的克隆与鉴定[J]. 现代医药卫生 2008(07)
    • [4].猪瘟病毒编码区基因选择压力及重组分析[J]. 科学通报 2013(34)
    • [5].12例结直肠癌组织LOH12CR1编码区的突变筛查[J]. 现代生物医学进展 2010(10)
    • [6].蛋白质编码区的Takagi-Sugeno模糊模型辨识[J]. 计算机工程与应用 2009(26)
    • [7].深圳地区汉族急性白血病儿童GSTP1全编码区基因多态性分析[J]. 临床检验杂志 2015(01)
    • [8].从急性弛缓性麻痹病例中分离1株VP_1编码区Ⅲ/Ⅱ型疫苗重组的脊髓灰质炎病毒[J]. 中国疫苗和免疫 2015(02)
    • [9].小鼠CD1d1编码区基因的克隆与鉴定[J]. 九江医学 2008(03)
    • [10].中国汉族女性TLR7基因主要编码区的全长扩增及多态性分析[J]. 现代生物医学进展 2013(06)
    • [11].猪传染性胃肠炎病毒S基因不同编码区的表达和反应原性鉴定[J]. 华北农学报 2014(06)
    • [12].Bcl–2部分编码区的载体反义RNA抗Bcl–2作用[J]. 深圳中西医结合杂志 2018(23)
    • [13].1株野鸭源鸡贫血病病毒的分离鉴定及其编码区基因序列分析[J]. 中国兽医学报 2013(05)
    • [14].河北省急性弛缓性麻痹病例中脊髓灰质炎病毒VP_1编码区基因特征分析[J]. 中国疫苗和免疫 2010(01)
    • [15].苏钟猪TLR4多态性及编码区C1027A功能分析[J]. 中国农业科学 2012(06)
    • [16].基于傅里叶分析的蛋白质编码区预测中功率谱密度计算方法研究[J]. 宁夏大学学报(自然科学版) 2011(02)
    • [17].应用mAPLP方法分析湖南汉族、苗族和土家族mtDNA编码区多态性[J]. 遗传 2008(06)
    • [18].肝癌SMMC-7721细胞受X线照射后线粒体DNA部分编码区断裂损伤状况[J]. 第二军医大学学报 2008(04)
    • [19].ZMIZ1-AS1编码区体细胞拷贝数变异在实体肿瘤分布及对预后的影响[J]. 中国慢性病预防与控制 2019(10)
    • [20].人DC-SIGN全长编码区基因的克隆及其胞外段的原核表达[J]. 细胞与分子免疫学杂志 2009(05)
    • [21].北京市2008年肠道病毒71型VP_1编码区基因特征分析[J]. 中国疫苗和免疫 2009(06)
    • [22].急性白血病患儿TYMS编码区单核苷酸多态性分析[J]. 临床检验杂志 2012(09)
    • [23].DBN在蛋白质编码区识别问题中的应用研究[J]. 计算机工程与应用 2020(04)
    • [24].陕西省2009~2012年肠道病毒71型VP_1编码区基因特征分析[J]. 中国疫苗和免疫 2014(03)
    • [25].XRCC4与XPC编码区突变与肝细胞癌的关联性研究[J]. 上海交通大学学报(医学版) 2013(08)
    • [26].人vigilin基因全长编码区的分段克隆及鉴定[J]. 四川大学学报(医学版) 2008(06)
    • [27].吉林省2009年手足口病来源的柯萨奇病毒A组16型VP_1编码区基因特征[J]. 中国疫苗和免疫 2012(06)
    • [28].吉林省2013年肠道病毒71型VP1编码区基因特征分析[J]. 中国卫生检验杂志 2016(10)
    • [29].广西壮族自治区2001年急性弛缓性麻痹病例中2株C_(4b)亚型进化分支人肠道病毒71型VP_1编码区基因特征分析[J]. 中国疫苗和免疫 2012(06)
    • [30].IL-37b基因克隆及其真核的表达载体构建[J]. 山东医药 2013(39)

    标签:;  ;  ;  ;  ;  

    基于图形表示的蛋白质编码区识别方法研究
    下载Doc文档

    猜你喜欢