基于SVM和链接分析的蛋白质关系抽取系统

基于SVM和链接分析的蛋白质关系抽取系统

论文摘要

随着生物医学文献数量的急剧增长,各种各样的生物医学信息出现在生物医学研究者面前。这给生物医学研究者带来很沉重的负担,使他们很难迅速地从这些文献中找到需要的信息。为了提高他们的工作效率,迫切地需要一些自动化的工具帮助他们在海量生物医学文献中迅速地找到需要的信息。生物医学文献中蛋白质(基因)相互作用关系抽取的研究正是在这种背景下产生的。此外,从生物医学文献中抽取蛋白质(基因)相互作用关系也具有很高的应用价值,对蛋白质知识网络的建立、蛋白质关系的预测、新药的研制等均具有重要的意义。本文构建了一个生物医学文献中的蛋白质相互作用关系抽取系统。该系统使用基于支持向量机(SVM)和链接分析(Link parse)的方法抽取蛋白质(基因)交互作用关系。系统首先通过指代消解替换生物医学文献中的第三人称代词,然后使用条件随机域模型对生物医学文献进行实体识别,通过链接语法分析器分析文献中句子的链接路径,最后通过四大类特征的提取,包括:词项特征、关键词特征、链接特征以及词对特征,利用SVM分类器抽取蛋白质(基因)相互作用关系。本文首先介绍了蛋白质相互作用关系抽取的相关知识和研究概况,然后重点介绍了本文的实验系统所使用的核心方法——统计学习理论与支持向量机(SVM),接下来对系统使用的其他方法进行了详细描述,包括指代消解、命名实体识别、链接语法与链接语法分析器以及链接路径提取、关系抽取的特征选取。本文的最后给出了系统实现与性能评估。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 应用领域
  • 1.3 本文的工作
  • 1.4 本文的结构
  • 2 蛋白质关系抽取相关知识及研究综述
  • 2.1 蛋白质关系抽取的相关知识
  • 2.1.1 信息抽取的定义
  • 2.1.2 信息抽取的应用对象
  • 2.1.3 信息抽取的评价标准
  • 2.1.4 关系抽取的历史
  • 2.1.5 关系抽取的研究现状
  • 2.2 蛋白质相互作用关系抽取的研究现状
  • 3 统计学习理论与支持向量机
  • 3.1 统计学习理论概述
  • 3.1.1 学习问题的数学表达
  • 3.1.2 统计学习理论的核心内容
  • 3.1.3 VC维
  • 3.1.4 经验风险最小化
  • 3.1.5 复杂性与推广能力
  • 3.1.6 推广性的界
  • 3.1.7 结构风险最小化
  • 3.2 支持向量机
  • 3.2.1 广义最优分类面
  • 3.2.2 支持向量机
  • 3.2.3 核函数
  • 3.2.4 用于函数拟合的 SVM
  • 3.2.5 核函数主要成分分析
  • 4 系统方法描述
  • 4.1 指代消解
  • 4.1.1 指代消解的相关概念
  • 4.1.2 指代消解的基本原理和方法
  • 4.1.3 指代消解的主要实现技术
  • 4.1.4 DUTExtractor系统的指代消解
  • 4.2 命名实体识别
  • 4.2.1 条件随机域模型的简要介绍
  • 4.2.2 DUTExtractor系统的命名实体识别
  • 4.3 链接语法与链接路径提取算法
  • 4.3.1 链接语法的形式定义和基本概念
  • 4.3.2 链接语法的主要特点
  • 4.3.3 链接语法的分析算法
  • 4.3.4 DUTExtractor系统中链接语法分析器的作用以及链接提取算法
  • 4.4 关系抽取的特征选取
  • 4.4.1 词项特征
  • 4.4.2 关键词特征
  • 4.4.3 链接特征
  • 4.4.4 词对(pair)特征
  • 5 系统实现与性能评估
  • 5.1 系统框架
  • 5.2 系统实现
  • 5.2.1 系统实现采用的编程语言
  • 5.2.2 系统实现采用的数据库管理软件
  • 5.2.3 系统界面与输入输出
  • 5.2.4 实验语料及训练和测试数据的构造
  • 5.3 系统性能评估
  • 5.3.1 系统关系抽取结果
  • 5.3.2 系统关系抽取错误分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于SVM和链接分析的蛋白质关系抽取系统
    下载Doc文档

    猜你喜欢