基于判别式模型的生物医学文本挖掘相关问题研究

基于判别式模型的生物医学文本挖掘相关问题研究

论文摘要

随着计算技术和生物技术的进步,当前生物医学文献正在以前所未有的速度增长。这些文献中蕴含着最新的研究进展和丰富的生物医学知识,对于生物医学研究者具有重要意义。然而数以千万计的文献使得研究者追踪和整理自己需要的知识和信息变得越来越困难。文本挖掘技术可以解决这一问题,帮助生物医学研究者提高从文献中获取知识和信息的效率。因此针对生物医学文献的文本挖掘研究具有重要的应用价值。判别式模型是一类直接利用特征来预测目标变量的发生概率的机器学习模型,本文中主要用到的判别式模型有最大熵模型和条件随机域模型。相对于产生式模型,判别式模型降低了特征之间的独立性假设的要求,并且与很多文本挖掘任务的需求相一致,因而更有可能取得好的效果。本文主要研究如何利用判别式模型来解决生物医学文献挖掘中的问题。具体地,我们研究了生物医学文本挖掘中的三个任务:生物医学名实体识别、生物医学实体规范化以及生物医学语义关系抽取。在这3任务中,第二个任务是第一个任务在语义处理上的延伸,前两个任务是第三个任务的基础。本文的主要内容包含以下4个方面。生物医学名实体识别的目标是确定一个给定的文本集合内的某一类型的实体的名字的所有实例,它是进行深层次文本挖掘的必要步骤之一。本文在考察了生物医学领域实体识别的特点和难点,分析了目前已有的生物医学实体识别方法的优缺点的基础上,提出了利用条件随机域模型结合丰富特征集来进行生物医学实体识别的方法。这些特征包括:构词法特征、上下文特征和句法特征。其中,浅层句法特征是首次被引入到条件随机域模型中,同时用来进行实体的边界检测和类别判断。实验表明,这一特征可以有效地提高名实体识别的效果。有监督的机器学习方法需要大规模的标注语料。大量的电子文献使得在生物医学领域获取未标记的语料已相当容易,但是对语料进行标注仍然是一件昂贵的工作。针对在生物医学名实体识别中有监督学习所需的大规模训练语料比较难以获取的问题,本文提出了基于最大熵模型的协同训练的半监督学习方法。该方法可以利用大量的未标注语料来提高在较少的标注语料的基础上学习到的分类器的名实体识别性能。为了进一步提高半监督学习的效果,本文将主动学习引入到半监督学习的过程中。实验表明,基于最大熵模型的协同训练方法可以有效地提高初始分类器的识别性能。灵活的生物医学实体命名方式使得生物医学实体具有严重的歧义。这已成为对生物医学文献进行深层自动文本挖掘的主要障碍之一。生物医学实体规范化的提出就是为了解决这一问题。生物医学实体规范化就是把生物医学文献中表达同一概念的不同变体映射到统一的概念标识符。本文提出了一种用于生物医学实体规范化的多层歧义消解框架。实体规范化过程中不同阶段有不同的歧义情形,在本文提出的框架中,针对这些情形采用了有针对性的解决策略,包括:基于词典的实体名字检测,基于机器学习方法的候选选择以及基于知识的歧义消解。在BioCreAtIvE2006基因名字规范化任务的测试集上的实验表明本文提出的框架可以有效地解决规范化过程中的各种歧义。生物医学语义关系抽取是生物医学文本挖掘的主要研究内容之一,是从无结构的生物医学文献中抽取出生物医学知识的重要手段。在实际应用中,生物医学语义关系的定义有宽泛和具体之分。本文将宽泛定义和具体定义的生物医学语义关系抽取分别看作二分类和多分类问题,提出基于最大熵模型的生物医学语义关系抽取的方法。针对不区分类别的蛋白质相互作用这种宽泛定义的关系抽取,提出了一种基于最大熵的二阶段蛋白质相互作用关系抽取方法。针对多类别的蛋白质相互作用这种具体定义的关系抽取,提出使用最大熵模型结合词特征的抽取方法,该方法在一个具有10种蛋白质相互作用类别的数据集上取得了73.4%的总体精确率。同样的方法应用到疾病与治疗方式关系抽取任务中,也取得了很好的实验结果。此外,本文还通过理论分析和实验对比,从理论和实践两个方面说明了判别式模型比产生式模型更适合生物医学语义关系抽取问题。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 生物医学名实体识别
  • 1.2.2 同义词与缩略语识别
  • 1.2.3 生物医学实体规范化
  • 1.2.4 生物医学关系抽取
  • 1.2.5 生物医学文献分类
  • 1.2.6 假设生成
  • 1.3 生物医学语言学资源
  • 1.3.1 语料库资源
  • 1.3.2 词典及本体知识库
  • 1.3.3 生物医学文本挖掘的相关评测
  • 1.4 本文的研究内容
  • 1.5 本文的内容安排
  • 第2章 基于条件随机域的生物医学名实体识别
  • 2.1 引言
  • 2.2 问题定义
  • 2.2.1 生物医学名实体特点
  • 2.2.2 生物医学实体识别的研究进展
  • 2.3 模型介绍
  • 2.3.1 最大熵模型
  • 2.3.2 条件随机域模型
  • 2.4 生物医学名实体识别流程及所采用的特征
  • 2.4.1 浅层句法特征
  • 2.4.2 其他特征
  • 2.5 实验数据集
  • 2.5.1 JNLPBA2004 数据集
  • 2.5.2 BioCreAtIvE 数据集
  • 2.6 实验结果
  • 2.6.1 在JNLPBA2004 数据集上的实验结果
  • 2.6.2 在BioCreAtIvE 数据集上的实验结果
  • 2.7 本章小结
  • 第3章 基于最大熵的协同训练在生物医学实体识别中的应用
  • 3.1 引言
  • 3.2 半监督学习
  • 3.2.1 半监督学习的理论分析
  • 3.2.2 半监督学习的常用方法
  • 3.3 主动学习
  • 3.3.1 主动学习的定义
  • 3.3.2 主动学习的分类
  • 3.4 基于协同训练方法的生物医学名实体识别
  • 3.4.1 协同训练
  • 3.4.2 基于最大熵模型的协同训练
  • 3.4.3 实验设置及实验结果
  • 3.5 协同训练和主动学习相结合的生物医学名实体识别
  • 3.6 本章小结
  • 第4章 基于多层歧义消解策略的生物医学实体规范化研究
  • 4.1 引言
  • 4.2 基因名字规范化问题定义
  • 4.3 相关工作
  • 4.4 基因名字规范化的多层歧义消解
  • 4.4.1 基于词典匹配的基因名字识别
  • 4.4.2 基于最大熵模型的候选选择
  • 4.4.3 基于知识的歧义消解
  • 4.5 实验结果
  • 4.5.1 数据集
  • 4.5.2 评价方法
  • 4.5.3 实验结果与分析
  • 4.5.4 与其他工作的比较
  • 4.6 本章小结
  • 第5章 生物医学语义关系抽取研究
  • 5.1 引言
  • 5.2 生物医学语义关系抽取的研究进展
  • 5.3 蛋白质相互作用信息抽取
  • 5.3.1 BC?PPI语料库
  • 5.3.2 基于最大熵的二阶段蛋白质相互作用关系抽取
  • 5.3.3 实验结果
  • 5.4 蛋白质相互作用关系分类
  • 5.4.1 实验数据集
  • 5.4.2 基于最大熵模型的蛋白质相互作用分类
  • 5.4.3 实验结果与分析
  • 5.5 疾病和治疗方式关系抽取
  • 5.5.1 实验数据集
  • 5.5.2 实验结果
  • 5.6 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的学术论文
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].生物医学的“数据冰山”[J]. 科学新闻 2019(06)
    • [2].生物医学大数据是重要战略资源[J]. 科学新闻 2019(06)
    • [3].目的论视域下生物医学论文翻译探析[J]. 大众标准化 2020(08)
    • [4].选择最合适的纤维织造、更安全的生物医学结构[J]. 中国纤检 2020(07)
    • [5].实验猕猴在生物医学研究中的福利管理[J]. 生命科学 2020(07)
    • [6].生物医学道德增强的伦理探析[J]. 大庆社会科学 2020(04)
    • [7].生物医学标准物质的发展与挑战[J]. 计量技术 2019(10)
    • [8].生物医学领域需要持续的科技创新[J]. 中国高等教育 2016(23)
    • [9].生物医学文本挖掘研究热点分析[J]. 中华医学图书情报杂志 2016(02)
    • [10].3D打印生物医学产业大有可为[J]. 新湘评论 2016(17)
    • [11].3D生物打印材料在生物医学领域中的应用及研究进展[J]. 中华临床医师杂志(电子版) 2019(02)
    • [12].生物医学研究中的实验记录及其存档与管理[J]. 生物技术通讯 2017(02)
    • [13].激光扫描共聚焦显微镜在生物医学中发展与应用[J]. 科教文汇(中旬刊) 2017(07)
    • [14].生物医学文献中的蛋白质相互作用抽取研究[J]. 山东工业技术 2016(20)
    • [15].生物医学大数据的现状与展望[J]. 健康之路 2018(12)
    • [16].“聚合”:生物医学酝酿第三次革命[J]. 科学新闻 2011(02)
    • [17].日本期刊《药物和生物医学分析》审稿过程实例分析[J]. 编辑学报 2011(04)
    • [18].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(05)
    • [19].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(04)
    • [20].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(09)
    • [21].《生物医学研究杂志》正式批准[J]. 南京医科大学学报(社会科学版) 2009(04)
    • [22].《生物医学论文写作20讲》出版[J]. 中国学校卫生 2008(01)
    • [23].生物医学论文写作20讲出版[J]. 生殖医学杂志 2008(01)
    • [24].《生物医学论文写作20讲》出版[J]. 中国心理卫生杂志 2008(03)
    • [25].美研制出可广泛用于生物医学的新材料[J]. 功能材料信息 2008(02)
    • [26].上海市儿童生物医学研究知情同意执行情况调查[J]. 医学与社会 2020(01)
    • [27].关于我国涉及人的生物医学研究管理规范的思考[J]. 科技管理研究 2020(11)
    • [28].浅谈3D打印技术在生物医学领域的应用与发展[J]. 信息记录材料 2019(07)
    • [29].生物医学大数据的现状与发展趋势研究[J]. 科技与创新 2018(02)
    • [30].生物医学大数据发展的新挑战与趋势[J]. 中国科学院院刊 2018(08)

    标签:;  ;  ;  ;  ;  

    基于判别式模型的生物医学文本挖掘相关问题研究
    下载Doc文档

    猜你喜欢