论文摘要
随着计算技术和生物技术的进步,当前生物医学文献正在以前所未有的速度增长。这些文献中蕴含着最新的研究进展和丰富的生物医学知识,对于生物医学研究者具有重要意义。然而数以千万计的文献使得研究者追踪和整理自己需要的知识和信息变得越来越困难。文本挖掘技术可以解决这一问题,帮助生物医学研究者提高从文献中获取知识和信息的效率。因此针对生物医学文献的文本挖掘研究具有重要的应用价值。判别式模型是一类直接利用特征来预测目标变量的发生概率的机器学习模型,本文中主要用到的判别式模型有最大熵模型和条件随机域模型。相对于产生式模型,判别式模型降低了特征之间的独立性假设的要求,并且与很多文本挖掘任务的需求相一致,因而更有可能取得好的效果。本文主要研究如何利用判别式模型来解决生物医学文献挖掘中的问题。具体地,我们研究了生物医学文本挖掘中的三个任务:生物医学名实体识别、生物医学实体规范化以及生物医学语义关系抽取。在这3任务中,第二个任务是第一个任务在语义处理上的延伸,前两个任务是第三个任务的基础。本文的主要内容包含以下4个方面。生物医学名实体识别的目标是确定一个给定的文本集合内的某一类型的实体的名字的所有实例,它是进行深层次文本挖掘的必要步骤之一。本文在考察了生物医学领域实体识别的特点和难点,分析了目前已有的生物医学实体识别方法的优缺点的基础上,提出了利用条件随机域模型结合丰富特征集来进行生物医学实体识别的方法。这些特征包括:构词法特征、上下文特征和句法特征。其中,浅层句法特征是首次被引入到条件随机域模型中,同时用来进行实体的边界检测和类别判断。实验表明,这一特征可以有效地提高名实体识别的效果。有监督的机器学习方法需要大规模的标注语料。大量的电子文献使得在生物医学领域获取未标记的语料已相当容易,但是对语料进行标注仍然是一件昂贵的工作。针对在生物医学名实体识别中有监督学习所需的大规模训练语料比较难以获取的问题,本文提出了基于最大熵模型的协同训练的半监督学习方法。该方法可以利用大量的未标注语料来提高在较少的标注语料的基础上学习到的分类器的名实体识别性能。为了进一步提高半监督学习的效果,本文将主动学习引入到半监督学习的过程中。实验表明,基于最大熵模型的协同训练方法可以有效地提高初始分类器的识别性能。灵活的生物医学实体命名方式使得生物医学实体具有严重的歧义。这已成为对生物医学文献进行深层自动文本挖掘的主要障碍之一。生物医学实体规范化的提出就是为了解决这一问题。生物医学实体规范化就是把生物医学文献中表达同一概念的不同变体映射到统一的概念标识符。本文提出了一种用于生物医学实体规范化的多层歧义消解框架。实体规范化过程中不同阶段有不同的歧义情形,在本文提出的框架中,针对这些情形采用了有针对性的解决策略,包括:基于词典的实体名字检测,基于机器学习方法的候选选择以及基于知识的歧义消解。在BioCreAtIvE2006基因名字规范化任务的测试集上的实验表明本文提出的框架可以有效地解决规范化过程中的各种歧义。生物医学语义关系抽取是生物医学文本挖掘的主要研究内容之一,是从无结构的生物医学文献中抽取出生物医学知识的重要手段。在实际应用中,生物医学语义关系的定义有宽泛和具体之分。本文将宽泛定义和具体定义的生物医学语义关系抽取分别看作二分类和多分类问题,提出基于最大熵模型的生物医学语义关系抽取的方法。针对不区分类别的蛋白质相互作用这种宽泛定义的关系抽取,提出了一种基于最大熵的二阶段蛋白质相互作用关系抽取方法。针对多类别的蛋白质相互作用这种具体定义的关系抽取,提出使用最大熵模型结合词特征的抽取方法,该方法在一个具有10种蛋白质相互作用类别的数据集上取得了73.4%的总体精确率。同样的方法应用到疾病与治疗方式关系抽取任务中,也取得了很好的实验结果。此外,本文还通过理论分析和实验对比,从理论和实践两个方面说明了判别式模型比产生式模型更适合生物医学语义关系抽取问题。
论文目录
相关论文文献
- [1].生物医学的“数据冰山”[J]. 科学新闻 2019(06)
- [2].生物医学大数据是重要战略资源[J]. 科学新闻 2019(06)
- [3].目的论视域下生物医学论文翻译探析[J]. 大众标准化 2020(08)
- [4].选择最合适的纤维织造、更安全的生物医学结构[J]. 中国纤检 2020(07)
- [5].实验猕猴在生物医学研究中的福利管理[J]. 生命科学 2020(07)
- [6].生物医学道德增强的伦理探析[J]. 大庆社会科学 2020(04)
- [7].生物医学标准物质的发展与挑战[J]. 计量技术 2019(10)
- [8].生物医学领域需要持续的科技创新[J]. 中国高等教育 2016(23)
- [9].生物医学文本挖掘研究热点分析[J]. 中华医学图书情报杂志 2016(02)
- [10].3D打印生物医学产业大有可为[J]. 新湘评论 2016(17)
- [11].3D生物打印材料在生物医学领域中的应用及研究进展[J]. 中华临床医师杂志(电子版) 2019(02)
- [12].生物医学研究中的实验记录及其存档与管理[J]. 生物技术通讯 2017(02)
- [13].激光扫描共聚焦显微镜在生物医学中发展与应用[J]. 科教文汇(中旬刊) 2017(07)
- [14].生物医学文献中的蛋白质相互作用抽取研究[J]. 山东工业技术 2016(20)
- [15].生物医学大数据的现状与展望[J]. 健康之路 2018(12)
- [16].“聚合”:生物医学酝酿第三次革命[J]. 科学新闻 2011(02)
- [17].日本期刊《药物和生物医学分析》审稿过程实例分析[J]. 编辑学报 2011(04)
- [18].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(05)
- [19].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(04)
- [20].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(09)
- [21].《生物医学研究杂志》正式批准[J]. 南京医科大学学报(社会科学版) 2009(04)
- [22].《生物医学论文写作20讲》出版[J]. 中国学校卫生 2008(01)
- [23].生物医学论文写作20讲出版[J]. 生殖医学杂志 2008(01)
- [24].《生物医学论文写作20讲》出版[J]. 中国心理卫生杂志 2008(03)
- [25].美研制出可广泛用于生物医学的新材料[J]. 功能材料信息 2008(02)
- [26].上海市儿童生物医学研究知情同意执行情况调查[J]. 医学与社会 2020(01)
- [27].关于我国涉及人的生物医学研究管理规范的思考[J]. 科技管理研究 2020(11)
- [28].浅谈3D打印技术在生物医学领域的应用与发展[J]. 信息记录材料 2019(07)
- [29].生物医学大数据的现状与发展趋势研究[J]. 科技与创新 2018(02)
- [30].生物医学大数据发展的新挑战与趋势[J]. 中国科学院院刊 2018(08)
标签:生物医学文本挖掘论文; 名实体识别论文; 关系抽取论文; 判别式模型论文; 半监督学习论文;