蛋白质名字识别系统的研究与实现

蛋白质名字识别系统的研究与实现

论文摘要

为了更好地理解生物过程,我们必须准确阐述生物体间的相互作用,尤其是蛋白质之间的相互作用。但目前生物医学领域内的大量信息埋藏于数以百万计的科学文献当中,并且此数目仍在不断的增长。因此,对海量生物医学文献的自动、高效、智能化的信息提取,成为生物信息学领域内,具有挑战性的课题。我们实验室于 2004 年开始对此课题进行研究。通过在生物学文献中自动提取出蛋白质相互作用模板的方式,实现了基于科学文献的蛋白质相互作用关系提取系统 SPIES(Scientific-literature-based Protein InteractionExtraction System)。而蛋白质名字实体的识别结果直接关系到 SPIES 提取系统的性能。本文运用机器学习的方法,设计并实现了一个自动识别蛋白质名字实体的系统 Ne4Pro(Named Entity recognition system for Proteinnames )。该系统能够从生物学文献中自动识别、提取蛋白质名实体,并将识别结果与蛋白质序列数据库中的关联实体建立联系。在 Ne4Pro 中,我们将名字识别问题划分为三个主要的任务:(1)词语识别任务:确定文本中的词语能否成为名字实体的组成部分。该任务可以形式化表达为对当前词的二分类任务,我们需要一个二分类器对文本中出现的词语分为是名字实体的,不是名字实体的两类。该任务是三个任务中,计算量最大的,也是最基础的任务,它的实现情况直接影响到后继任务的开展。因此所选择的分类特征应尽可能全面,可以覆盖所有类型的名字实体。(2)实体边界确定任务:确定名字实体开始和结束的边界。该任务可以分为扩展边界确定和按优先级确定名字实体边界。所谓扩展边界确定就是收集由上个任务识别得到的名字实体词语周围的词语,通过规则,正规化,字典等方法确定开始和结束边界;按优先级确定名字实体边界是指当名字实体边界确定中出现歧义的时候,按照划分需求给与不同的优先级,为名字实体确定符合需求的定界方案。和扩展边界确定相比较,按优先级确定名字实体边界的方法更为敏感,对先验命名规则的依赖性更大。

论文目录

  • 摘要
  • Abstract
  • Table of Contents
  • Chapter 1 Introduction
  • 1.1 Named Entity Recognition in Biomedicine
  • 1.2 Problems in Biomedical Named Entity Recognition
  • 1.3 Summary of Proposed Work
  • 1.4 Research Hypothesis
  • 1.5 Research Assumptions
  • 1.6 Contributions
  • 1.7 Overview of the Thesis
  • Chapter 2 Review of Previous Works
  • 2.1 Dictionary Based Method
  • 2.2 Rule Based Method
  • 2.3 Machine Learning Based Method
  • 2.4 Advantages and Disadvantages
  • 2.5 Evaluation
  • 2.6 Previous Work that are related to Thesis’Development
  • 2.7 Summary
  • Chapter 3 Features and Limitations on Previous Approaches
  • 3.1 Information Features
  • 3.1.1 Internal Information
  • 3.1.2 External Information
  • 3.2 Kinds of feature
  • 3.2.1 Orthographic Feature
  • 3.2.2 Morphology Feature
  • 3.2.3 Part of Speech Feature (POS)
  • 3.2.4 Term Feature
  • 3.2.5 Word Shape Feature
  • 3.2.6 Unigram and Bi-gram
  • 3.3 Limitations of Previous Approaches
  • 3.3.1 Features
  • 3.3.2 Boundary Problems
  • 3.3.3 Cascading Problems
  • 3.4 Difficulties in Integrated Previous Approaches
  • 3.5 Our Approaches
  • 3.6 Summary
  • Chapter 4 Protein Named Entity Classification
  • 4.1 Definition of Named Entity Classification Problem
  • 4.1.1 Named Entity Identification task
  • 4.1.2 Named Entity Boundary Fixation task
  • 4.1.3 Named Entity Classification task
  • 4.2 Methods
  • 4.2.1 Dictionary Preservation
  • 4.2.2 Entity Identification
  • 4.2.3 Entity Boundary Fixation
  • 4.2.4 Entity Semantic Classification
  • 4.3 Summary
  • Chapter 5 Experiments and Evaluations
  • 5.1 Experiments
  • 5.1.1 Our Proposed Feature
  • 5.1.2 Entity Identification Task
  • 5.1.3 Entity Boundary Fixation Task
  • 5.1.4 Entity Semantic Classification Task
  • 5.1.5 Overall System Performance
  • 5.2 Evaluations
  • 5.3 Summary and Conclusion
  • Chapter 6 Generalization, Limitation and Future Work
  • 6.1 Generalizability
  • 6.2 Limitations
  • 6.3 Future Works
  • 6.4 Summary
  • References
  • Acknowledgements
  • 声明
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].地理国情监测变化信息提取与质量控制探讨[J]. 住宅与房地产 2019(36)
    • [2].基于3S技术的土地利用变化信息提取[J]. 黑龙江科技信息 2013(07)
    • [3].一种用于城市信息提取的改进居民地指数[J]. 国土资源遥感 2016(04)
    • [4].中考信息提取题考练指导[J]. 语文天地 2009(20)
    • [5].基于面向对象算法的道路信息提取研究[J]. 测绘与空间地理信息 2017(09)
    • [6].谈我国保安服务业的人体生物信息提取与留存制度[J]. 公安研究 2012(09)
    • [7].关于大数据中用户资源信息提取仿真研究[J]. 计算机仿真 2018(07)
    • [8].信息提取题的解题方法[J]. 初中生 2009(19)
    • [9].国内英语阅读中的信息提取和加工研究回顾[J]. 疯狂英语(理论版) 2017(04)
    • [10].中考语段要点信息提取类型及解答策略[J]. 中华活页文选(初三年级) 2011(12)
    • [11].高中物理信息提取的错误及矫正[J]. 中学课程辅导(教师通讯) 2015(21)
    • [12].掩模板设计的信息提取自动化方法[J]. 集成电路应用 2017(04)
    • [13].基于内容的音乐信息提取的研究对象与思路[J]. 广西广播电视大学学报 2015(04)
    • [14].基于多源数据协同作业的森林信息提取研究进展[J]. 世界林业研究 2020(01)
    • [15].基于数据属性的无线网络空间嵌入信息提取[J]. 计算机仿真 2020(09)
    • [16].基于极化散射特性的神经网络海岸带信息提取[J]. 海洋科学进展 2017(02)
    • [17].应聘大数据信息提取[J]. 科技创新与应用 2018(33)
    • [18].解密阅读类型题之“信息提取”题[J]. 中华活页文选(初二版) 2009(05)
    • [19].高分1号数据用于云南文山三七种植信息提取[J]. 浙江农林大学学报 2020(01)
    • [20].基于面向对象的高分辨率遥感建筑物震害信息提取与评估[J]. 地震学报 2016(06)
    • [21].时序PSInSAR研究建筑物高度信息提取[J]. 武汉大学学报(信息科学版) 2017(04)
    • [22].基于特征信息提取的中文自动文摘方法[J]. 计算机应用与软件 2008(05)
    • [23].网络店铺信息自动提取[J]. 福建电脑 2011(02)
    • [24].基于公安业务的高分影像中道路信息提取研究[J]. 电子测试 2017(10)
    • [25].利用干涉测量相干性信息提取地震断层位置的方法[J]. 科技信息 2009(04)
    • [26].基于FY-3A/VIRR数据的雪盖信息提取软件设计与实现[J]. 计算机工程与科学 2015(07)
    • [27].顾及资三卫星全色与多光谱数据的植被信息提取研究[J]. 北京建筑大学学报 2018(01)
    • [28].无人机遥感数据处理与滑坡信息提取[J]. 地球信息科学学报 2017(05)
    • [29].基于信息提取的动态OD估计理念研究[J]. 西华大学学报(自然科学版) 2011(06)
    • [30].中考信息提取与概括题考点解读与演练[J]. 语文世界(中学生之窗) 2012(06)

    标签:;  ;  ;  ;  ;  

    蛋白质名字识别系统的研究与实现
    下载Doc文档

    猜你喜欢