面向生物医学领域的文本挖掘技术研究

面向生物医学领域的文本挖掘技术研究

论文摘要

当前,出版的生物医学文献呈指数级增长,成为一座巨大的知识宝库。由于生物医学文献绝大多数都是以文本方式存在,从这座宝库快速有效地进行文本挖掘,提取生物医学知识的需求变得非常迫切。生物医学文本挖掘主要依赖于自然语言处理技术和机器学习方法从海量生物医学文献中有效地找到所需信息、发现隐藏的生物医学知识。本文首先介绍了文本挖掘技术及其应用,接着介绍了生物医学领域文本挖掘技术的当前研究现状以及本人在该领域所作的相关研究。本文提出了一个基于改进编辑距离算法的生物实体识别方法,这是一种基于词典的方法:通过改进编辑距离算法提高识别的召回率,并采用POS扩展、利用上下文线索等语言知识以及前后缀词扩展、合并邻近实体等规则进一步提高性能。在JNLPBA2004测评语料上的实验表明其性能远远高于基于字符串完全匹配的词典方法(综合分类率F分别为68.48%和47.7%)。当前流行的机器学习方法的生物实体识别性能还有很大的提升空间,本文提出了一个基于条件随机域(CRFs)与上下文线索的生物实体识别方法。该方法首先选取合适特征,使用条件随机域进行生物实体识别;同时充分利用语言学的知识,使用上下文中存在的三种启发式语法结构(上下文线索):括号对、启发式语法结构和交互词提示,根据其提供的实体及其类别信息进一步提高识别性能。在JNLPBA2004和BioCreative2004task 1A测评语料上的实验结果表明上下文线索的引入提高了性能三个百分点左右。从生物医学文献中抽取蛋白质交互作用关系对蛋白质知识网络的建立、蛋白质关系的预测、新药的研制等均具有重要的意义。基于自然语言处理的系统通过分析语法结构进行关系抽取,能获得较高的准确性。本文提出了一个基于链接语法分析的蛋白质(基因)交互作用关系的抽取方法。该方法使用条件随机域(CRFs)与上下文线索结合的生物实体识别方法,再通过链接语法分析划分语法成分,从语法成分及其合理组合中抽取蛋白质(基因)交互作用关系。实验结果表明该方法的召回率以及综合分类率F指标都高于使用同一测试语料的其他系统。基于机器学习和统计的方法可以获得较高的召回率,本文提出了一种基于支持向量机(SVM)的蛋白质交互作用关系抽取方法。该方法除了选取词项特征、关键词特征、实体距离特征以及链接特征等特征外,还利用链接语法分析方法可以获得较高准确率的特性,引入链接语法分析方法抽取结果特征,在损失较少关系抽取召回率性能的情况下,较大地提高了准确率,从而最终提高了综合分类率。实验结果表明该方法的召回率性能与使用同一测试语料的其他系统相比具有明显的优势,综合分类率F指标也高于其他系统。海量的生物医学文献给应用文本挖掘技术进行隐含医学知识发现提供了前所未有的机会。本文提出了一个生物医学领域的假设生成方法,该方法对医学文献记录中的医学主题词MeSH及自由文本中的医学概念同时进行相关概念提取,弥补了当前研究只使用其中一个的不足。同时基于UMLS Knowledge Sources,进行基于概念的查询扩展,提高了相关记录的召回率,并通过语义过滤,降低了搜索空间。通过验证鱼油与雷诺氏病关联的实验表明该方法提高了获取相关概念的效果。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 文本挖掘技术及其应用
  • 1.1.1 文本挖掘的定义
  • 1.1.2 文本挖掘的主要支撑技术:自然语言处理和机器学习
  • 1.1.3 文本挖掘的过程
  • 1.1.4 文本挖掘的研究内容
  • 1.1.5 文本挖掘的应用前景
  • 1.2 文本挖掘技术在生物医学领域中的应用
  • 1.3 本文的主要研究内容及论文的组织
  • 2 生物医学文本挖掘技术当前研究
  • 2.1 生物医学文本挖掘技术的研究意义
  • 2.2 生物医学文本挖掘技术当前研究内容
  • 2.2.1 信息检索
  • 2.2.2 文本分类
  • 2.2.3 自动文摘
  • 2.2.4 命名实体识别
  • 2.2.5 关系抽取
  • 2.2.6 假设发现
  • 2.2.7 信息集成
  • 2.3 挑战和未来的方向
  • 2.4 本人所作的相关研究
  • 2.5 本章小结
  • 3 生物医学文献生物命名实体识别
  • 3.1 生物医学文献实体识别相关研究
  • 3.1.1 命名实体识别的定义和研究意义
  • 3.1.2 命名实体识别技术的相关研究
  • 3.2 基于改进编辑距离算法的实体识别方法
  • 3.2.1 基于改进编辑距离算法的实体识别方法描述
  • 3.2.2 词典的构造和扩充
  • 3.2.3 改进编辑距离算法
  • 3.2.4 使用规则和语言学知识提高性能
  • 3.2.5 基于改进编辑距离算法的实体识别实验与讨论
  • 3.3 本章小结
  • 4 基于条件随机域与上下文线索结合的实体识别方法
  • 4.1 基于条件随机域与上下文线索结合的实体识别方法描述
  • 4.2 条件随机域(CRFs)模型
  • 4.3 特征选择
  • 4.4 利用上下文线索提高性能
  • 4.5 基于条件随机域与上下文线索结合的实体识别方法实验与讨论
  • 4.6 本章小结
  • 5 生物医学文献实体关系抽取
  • 5.1 生物医学文献实体关系抽取相关研究和存在的问题
  • 5.1.1 生物医学文献实体关系抽取的定义和研究意义
  • 5.1.2 生物医学文献实体关系抽取的相关研究
  • 5.2 基于链接语法分析的实体关系抽取方法
  • 5.2.1 基于链接语法分析方法描述
  • 5.2.2 指代消解和实体识别
  • 5.2.2 链接语法和链接语法分析器
  • 5.2.3 复杂句子处理和关系抽取
  • 5.2.4 基于链接语法分析方法实验与讨论
  • 5.3 本章小结
  • 6 基于支持向量机的实体关系抽取方法
  • 6.1 基于支持向量机的实体关系抽取方法描述
  • 6.2 支持向量机模型
  • 6.2.1 广义最优分类面
  • 6.2.2 支持向量机
  • 6.2.3 核函数
  • 6.3 特征选取
  • 6.4 基于支持向量机的实体关系抽取方法实验与讨论
  • 6.5 本章小结
  • 7 生物医学文献中的假设发现
  • 7.1 生物医学文献假设发现相关研究
  • 7.1.1 生物医学文献假设发现的研究意义
  • 7.1.2 生物医学文献假设发现的相关研究
  • 7.2 医学主题词和医学概念相结合的假设发现方法
  • 7.2.1 生物医学文献资源
  • 7.2.2 医学主题词和医学概念相结合的假设发现方法
  • 7.2.3 医学主题词和医学概念相结合的假设发现系统结构
  • 7.2.4 假设发现的试验与讨论
  • 7.3 本章小结
  • 8 总结与展望
  • 8.1 总结
  • 8.2 展望
  • 参考文献
  • 攻读博士学位期间发表学术论文情况
  • 攻读博士学位期间参加项目情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向生物医学领域的文本挖掘技术研究
    下载Doc文档

    猜你喜欢