论文摘要
当前,出版的生物医学文献呈指数级增长,成为一座巨大的知识宝库。由于生物医学文献绝大多数都是以文本方式存在,从这座宝库快速有效地进行文本挖掘,提取生物医学知识的需求变得非常迫切。生物医学文本挖掘主要依赖于自然语言处理技术和机器学习方法从海量生物医学文献中有效地找到所需信息、发现隐藏的生物医学知识。本文首先介绍了文本挖掘技术及其应用,接着介绍了生物医学领域文本挖掘技术的当前研究现状以及本人在该领域所作的相关研究。本文提出了一个基于改进编辑距离算法的生物实体识别方法,这是一种基于词典的方法:通过改进编辑距离算法提高识别的召回率,并采用POS扩展、利用上下文线索等语言知识以及前后缀词扩展、合并邻近实体等规则进一步提高性能。在JNLPBA2004测评语料上的实验表明其性能远远高于基于字符串完全匹配的词典方法(综合分类率F分别为68.48%和47.7%)。当前流行的机器学习方法的生物实体识别性能还有很大的提升空间,本文提出了一个基于条件随机域(CRFs)与上下文线索的生物实体识别方法。该方法首先选取合适特征,使用条件随机域进行生物实体识别;同时充分利用语言学的知识,使用上下文中存在的三种启发式语法结构(上下文线索):括号对、启发式语法结构和交互词提示,根据其提供的实体及其类别信息进一步提高识别性能。在JNLPBA2004和BioCreative2004task 1A测评语料上的实验结果表明上下文线索的引入提高了性能三个百分点左右。从生物医学文献中抽取蛋白质交互作用关系对蛋白质知识网络的建立、蛋白质关系的预测、新药的研制等均具有重要的意义。基于自然语言处理的系统通过分析语法结构进行关系抽取,能获得较高的准确性。本文提出了一个基于链接语法分析的蛋白质(基因)交互作用关系的抽取方法。该方法使用条件随机域(CRFs)与上下文线索结合的生物实体识别方法,再通过链接语法分析划分语法成分,从语法成分及其合理组合中抽取蛋白质(基因)交互作用关系。实验结果表明该方法的召回率以及综合分类率F指标都高于使用同一测试语料的其他系统。基于机器学习和统计的方法可以获得较高的召回率,本文提出了一种基于支持向量机(SVM)的蛋白质交互作用关系抽取方法。该方法除了选取词项特征、关键词特征、实体距离特征以及链接特征等特征外,还利用链接语法分析方法可以获得较高准确率的特性,引入链接语法分析方法抽取结果特征,在损失较少关系抽取召回率性能的情况下,较大地提高了准确率,从而最终提高了综合分类率。实验结果表明该方法的召回率性能与使用同一测试语料的其他系统相比具有明显的优势,综合分类率F指标也高于其他系统。海量的生物医学文献给应用文本挖掘技术进行隐含医学知识发现提供了前所未有的机会。本文提出了一个生物医学领域的假设生成方法,该方法对医学文献记录中的医学主题词MeSH及自由文本中的医学概念同时进行相关概念提取,弥补了当前研究只使用其中一个的不足。同时基于UMLS Knowledge Sources,进行基于概念的查询扩展,提高了相关记录的召回率,并通过语义过滤,降低了搜索空间。通过验证鱼油与雷诺氏病关联的实验表明该方法提高了获取相关概念的效果。