论文摘要
随着生物医学文献数量的急剧增长,各种各样的生物医学信息出现在生物医学研究者面前。这给生物医学研究者带来很沉重的负担,使他们很难迅速地从这些文献中找到需要的信息。为了提高他们的工作效率,迫切地需要一些自动化的工具帮助他们在海量生物医学文献中迅速地找到需要的信息。生物医学文献中蛋白质(基因)相互作用关系抽取的研究正是在这种背景下产生的。此外,从生物医学文献中抽取蛋白质(基因)相互作用关系也具有很高的应用价值,对蛋白质知识网络的建立、蛋白质关系的预测、新药的研制等均具有重要的意义。本文构建了一个生物医学文献中的蛋白质相互作用关系抽取系统。该系统使用基于支持向量机(SVM)和链接分析(Link parse)的方法抽取蛋白质(基因)交互作用关系。系统首先通过指代消解替换生物医学文献中的第三人称代词,然后使用条件随机域模型对生物医学文献进行实体识别,通过链接语法分析器分析文献中句子的链接路径,最后通过四大类特征的提取,包括:词项特征、关键词特征、链接特征以及词对特征,利用SVM分类器抽取蛋白质(基因)相互作用关系。本文首先介绍了蛋白质相互作用关系抽取的相关知识和研究概况,然后重点介绍了本文的实验系统所使用的核心方法——统计学习理论与支持向量机(SVM),接下来对系统使用的其他方法进行了详细描述,包括指代消解、命名实体识别、链接语法与链接语法分析器以及链接路径提取、关系抽取的特征选取。本文的最后给出了系统实现与性能评估。
论文目录
摘要Abstract1 绪论1.1 研究背景1.2 应用领域1.3 本文的工作1.4 本文的结构2 蛋白质关系抽取相关知识及研究综述2.1 蛋白质关系抽取的相关知识2.1.1 信息抽取的定义2.1.2 信息抽取的应用对象2.1.3 信息抽取的评价标准2.1.4 关系抽取的历史2.1.5 关系抽取的研究现状2.2 蛋白质相互作用关系抽取的研究现状3 统计学习理论与支持向量机3.1 统计学习理论概述3.1.1 学习问题的数学表达3.1.2 统计学习理论的核心内容3.1.3 VC维3.1.4 经验风险最小化3.1.5 复杂性与推广能力3.1.6 推广性的界3.1.7 结构风险最小化3.2 支持向量机3.2.1 广义最优分类面3.2.2 支持向量机3.2.3 核函数3.2.4 用于函数拟合的 SVM3.2.5 核函数主要成分分析4 系统方法描述4.1 指代消解4.1.1 指代消解的相关概念4.1.2 指代消解的基本原理和方法4.1.3 指代消解的主要实现技术4.1.4 DUTExtractor系统的指代消解4.2 命名实体识别4.2.1 条件随机域模型的简要介绍4.2.2 DUTExtractor系统的命名实体识别4.3 链接语法与链接路径提取算法4.3.1 链接语法的形式定义和基本概念4.3.2 链接语法的主要特点4.3.3 链接语法的分析算法4.3.4 DUTExtractor系统中链接语法分析器的作用以及链接提取算法4.4 关系抽取的特征选取4.4.1 词项特征4.4.2 关键词特征4.4.3 链接特征4.4.4 词对(pair)特征5 系统实现与性能评估5.1 系统框架5.2 系统实现5.2.1 系统实现采用的编程语言5.2.2 系统实现采用的数据库管理软件5.2.3 系统界面与输入输出5.2.4 实验语料及训练和测试数据的构造5.3 系统性能评估5.3.1 系统关系抽取结果5.3.2 系统关系抽取错误分析结论参考文献攻读硕士学位期间发表学术论文情况致谢
相关论文文献
标签:关系抽取论文; 支持向量机论文; 链接语法分析论文; 指代消解论文; 实体识别论文;