基于生物医学文献的知识发现方法研究

基于生物医学文献的知识发现方法研究

论文摘要

文献挖掘是一种文本数据自动分析方法,涉及到数据挖掘、文本挖掘和自然语言处理等多个研究领域。作为一种从文献中提取、整合并发现知识的高效工具,能够快速处理大量文献并挖掘得到特定领域的知识。随着相关算法的引入与语料库的完善,文献挖掘的性能与可靠程度不断提高,因而在科学研究中得到越来越广泛的应用。生物医学研究积累了大量的文献数据,其中记载了大量的不同类型的知识。另一方面,生物信息技术研究的目的是管理并分析生物医学实验得到的海量数据,以及提供预测性或者指导性结论。作为生物信息技术研究的一个新兴方向,文献挖掘技术以生物医学文献数据为分析对象,提取和整合散布于文本数据中的知识,从而实现展示并推理文献中隐含的新知识的目的。本文以PubMed数据为研究对象,开发并整合多种文献挖掘方法,提取蛋白质、疾病和化合物相关的知识,并加以整合后用于新知识的发现。主要研究内容如下:1)识别文献数据中的实体,并映射到分子生物学数据库。文献中的实体识别是其他工作的基础。识别不同领域不同类型的实体所使用的方法各不相同,因而从生物医学文献中识别基因/蛋白质、疾病和化合物三类常见实体采用了不同的方法。利用基于统计的条件随机场方法,统计学习基因/蛋白质的命名特点与规律,从文献中识别出基因/蛋白质实体。利用基于词典的方法,从文献中提取出MeSH词典所描述的21类三级以下的疾病实体。同样,利用基于词典的方法从文献中提取出各类化合物实体。对于识别得到的基因/蛋白质实体,采用了分级映射方法,分别把实体映射到不同规范化程度的Entrez Gene数据库。按照与完备基因词典、中等基因词典和精简基因词典的匹配程度,把实体分为准确实体、可靠实体、相似实体和未知实体四部分。2)制定实体关联规则,整合实体之间的关联,得到六类关联实体。文本中识别得到的三类实体之间存在六种关联:蛋白质-蛋白质、疾病-疾病、化合物-化合物、蛋白质-疾病、蛋白质-化合物和疾病-化合物。首先通过共出现频率方法得到存在关联的各类实体。然后对存在共出现实体的句子进行词性标注,进而迭代提取出四类共536个描述实体关联的关联动词列表。以关联动词列表为基础,构建实体关联规则库。文本数据与关联规则库匹配后,得到六类关联实体数据。此外讨论了六类关联实体可能表示的生物医学意义以及相应的处理策略。3)基于实体关联数据构建相应的实体关联网络,并提供了两种网络分解方案来发现新的知识。以六类实体关联数据为基础,构建了6个简单实体关联网络。整合不同的简单实体关联网络后得到了2个杂合实体关联网络:分子相互作用网络与全关联网络。分析了8个实体关联网络的拓扑性质,并且把网络分解为连通子图、Hub子图和关联子图,从而得到存在间接关联的实体、活跃实体和一组关联实体构成的关联途径等新知识。4)构建了基于文献挖掘的生物医学知识发现平台的原型系统。平台整合了文献挖掘中所需的第三方工具以及自行开发的工具,提供统一的访问接口和数据格式。该平台能够完成实体识别、实体关联挖掘和实体关联网络构建三类知识发现任务,并且提供与第三方图显示工具兼容的数据格式,满足实体关联网络以及子图的可视化需求。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 生物信息数据分析
  • 1.2 生物医学文献挖掘与知识发现
  • 1.3 生物医学文献挖掘的典型应用
  • 1.4 研究意义与论文结构
  • 2 基于文献挖掘的实体识别
  • 2.1 实体识别方法概述
  • 2.2 基于统计的基因实体识别
  • 2.3 基因/蛋白质到Entrez Gene 数据库的映射
  • 2.4 基于词典的疾病与化合物实体识别
  • 2.5 小结
  • 3 基于文献挖掘的实体关联性分析
  • 3.1 引言
  • 3.2 关联实体的共出现频率分析
  • 3.3 实体关联规则库的制备
  • 3.4 实体关联模式的提取
  • 3.5 实体关联分析
  • 3.6 小结
  • 4 实体关联的网络分析
  • 4.1 图的拓扑性质
  • 4.2 实体关联网络的构建与性质
  • 4.3 基于实体关联网络的知识推理
  • 4.4 有向实体关联网络分析
  • 4.5 小结
  • 5 基于文献挖掘的生物医学知识发现平台的实现
  • 5.1 平台架构与功能
  • 5.2 平台实现
  • 5.3 平台部署与应用
  • 5.4 小结
  • 6 结论与展望
  • 6.1 主要成果与结论
  • 6.2 主要创新
  • 6.3 研究展望
  • 致谢
  • 参考文献
  • 附录1 攻读博士学位期间所发表的学术论文
  • 相关论文文献

    • [1].生物医学的“数据冰山”[J]. 科学新闻 2019(06)
    • [2].生物医学大数据是重要战略资源[J]. 科学新闻 2019(06)
    • [3].目的论视域下生物医学论文翻译探析[J]. 大众标准化 2020(08)
    • [4].选择最合适的纤维织造、更安全的生物医学结构[J]. 中国纤检 2020(07)
    • [5].实验猕猴在生物医学研究中的福利管理[J]. 生命科学 2020(07)
    • [6].生物医学道德增强的伦理探析[J]. 大庆社会科学 2020(04)
    • [7].生物医学标准物质的发展与挑战[J]. 计量技术 2019(10)
    • [8].生物医学领域需要持续的科技创新[J]. 中国高等教育 2016(23)
    • [9].生物医学文本挖掘研究热点分析[J]. 中华医学图书情报杂志 2016(02)
    • [10].3D打印生物医学产业大有可为[J]. 新湘评论 2016(17)
    • [11].3D生物打印材料在生物医学领域中的应用及研究进展[J]. 中华临床医师杂志(电子版) 2019(02)
    • [12].生物医学研究中的实验记录及其存档与管理[J]. 生物技术通讯 2017(02)
    • [13].激光扫描共聚焦显微镜在生物医学中发展与应用[J]. 科教文汇(中旬刊) 2017(07)
    • [14].生物医学文献中的蛋白质相互作用抽取研究[J]. 山东工业技术 2016(20)
    • [15].生物医学大数据的现状与展望[J]. 健康之路 2018(12)
    • [16].“聚合”:生物医学酝酿第三次革命[J]. 科学新闻 2011(02)
    • [17].日本期刊《药物和生物医学分析》审稿过程实例分析[J]. 编辑学报 2011(04)
    • [18].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(05)
    • [19].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(04)
    • [20].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(09)
    • [21].《生物医学研究杂志》正式批准[J]. 南京医科大学学报(社会科学版) 2009(04)
    • [22].《生物医学论文写作20讲》出版[J]. 中国学校卫生 2008(01)
    • [23].生物医学论文写作20讲出版[J]. 生殖医学杂志 2008(01)
    • [24].《生物医学论文写作20讲》出版[J]. 中国心理卫生杂志 2008(03)
    • [25].美研制出可广泛用于生物医学的新材料[J]. 功能材料信息 2008(02)
    • [26].上海市儿童生物医学研究知情同意执行情况调查[J]. 医学与社会 2020(01)
    • [27].关于我国涉及人的生物医学研究管理规范的思考[J]. 科技管理研究 2020(11)
    • [28].浅谈3D打印技术在生物医学领域的应用与发展[J]. 信息记录材料 2019(07)
    • [29].生物医学大数据的现状与发展趋势研究[J]. 科技与创新 2018(02)
    • [30].生物医学大数据发展的新挑战与趋势[J]. 中国科学院院刊 2018(08)

    标签:;  ;  ;  ;  ;  ;  

    基于生物医学文献的知识发现方法研究
    下载Doc文档

    猜你喜欢