基于概念和段落检索的生物医学文献知识发现

基于概念和段落检索的生物医学文献知识发现

论文摘要

从生物医学文献中抽取潜在的生物学关系有助于建立生物医学假说,而假说可以通过实验进一步探索之。但是,随着生物医学文献的快速增长,依靠人工阅读来获取知识是非常困难的。美国芝加哥大学情报学教授Don.R.Swanson创立的非相关文献知识发现方法可以在大量医学文献中揭示学科间隐藏联系,形成合理的假设来指导科学实践。他的知识发现方法逐渐受到人们的关注,成为研究的热点。概念检索计算简单直观,实验采用共现分析技术,对生物医学文献数据库MEDLINE中的MeSH概念进行隐含知识挖掘的研究。重点发现疾病与化学药品、药物、基因或者分子序列之间的新颖的、尚未被发现的生物学关系。实验利用三种计算方法:z分值、TFIDF(Term Frequency Inverse Document Frequency)和PMI(Pointwise MutualInformation),模拟Swanson的三组经典实验:Alzheimer’s disease(老年痴呆症)、Migraine(偏头疼)、Schizophrenia(精神分裂症)。同时使用LitLinker系统提出的评测方法,计算了各组实验结果的正确率和召回率。针对计算三种方法的不同特点,采用融合公式对发现结果重计算和重打分,进一步提高发现结果的正确率。实验发现,TFIDF方法和z分值方法在实验中分别表现出较好的正确率和召回率,融合公式可以有效提高实验结果的正确率。发现结果中包含更多有倾向性的主题,符合知识发现的期望。段落检索是针对概念检索知识发现计算数据过于分散,影响最终的排序结果,导致正确率不高这一问题提出的改进方法。针对MEDLINE摘要全文,进一步提取在完整句子中共现的MeSH概念。为了对比实验结果,本组实验采用的计算方法、计算起始词和概念检索实验一致,并且评测了实验结果的正确率和召回率。实验发现,z分值方法计算得到的结果有很高的正确率,TFIDF方法计算得到的结果有很好的召回率。使用段落检索方法找到的MeSH概念集中性较强,发现结果的正确率高于概念检索方法的结果,但是集中性导致召回率降低,减弱了对于未来的预测趋势。本文实验采用开放式发现算法,验证了Swanson的发现结果:Alzheimer’s disease(老年痴呆症)和indomethacin(消炎痛)、Migraine(偏头疼)和Magnesium(镁)、Schizophrenia(精神分裂症)和Calcium-independent phospholipase A2(游离钙磷脂酶A2)的潜在关系,同时还发现了三组起始词和其他的生物学潜在关系。分析发现这些潜在关系可以辅助医学专家揭示文献中的隐性关联,引导并实现知识发现的预期目标。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 文本挖掘技术综述
  • 1.2.1 文本挖掘定义
  • 1.2.2 文本挖掘的主要技术
  • 1.2.3 文本挖掘在生物医学文献中的应用
  • 1.3 知识发现研究现状
  • 1.4 生物医学文献隐含知识发现研究现状
  • 1.5 本文的结构
  • 2 生物医学文献隐含知识发现相关知识及算法研究综述
  • 2.1 生物医学文献资源
  • 2.1.1 医学主题词
  • 2.1.2 医学一体化语言系统
  • 2.2 开放式发现算法和闭合式发现算法
  • 2.2.1 开放式发现算法
  • 2.2.2 闭合式发现算法
  • 2.2.3 开放式发现算法和闭合式发现算法的区别
  • 2.2.4 主要知识发现系统算法
  • 3 概念检索开放式知识发现
  • 3.1 共现分析
  • 3.1.1 共现定义
  • 3.1.2 共现分析在文本挖掘中的作用
  • 3.1.3 共现分析在隐含知识发现中的实现思路
  • 3.2 方法
  • 3.2.1 建立MeSH概念索引
  • 3.2.2 开放式知识发现
  • 4 段落检索开放式知识发现
  • 4.1 段落检索
  • 4.1.1 段落检索研究背景
  • 4.1.2 句子级重叠窗口
  • 4.2 方法
  • 4.2.1 建立索引
  • 4.2.2 句子级重叠窗口索引的段落检索
  • 4.3 计算工具hadoop
  • 4.3.1 hadoop定义
  • 4.3.2 hadoop结构
  • 4.3.3 hadoop在实验中的应用
  • 5 实验结果分析
  • 5.1 实验数据
  • 5.2 评测
  • 5.3 发现的关系分析
  • 5.3.1 Alzheimer's disease(老年痴呆症)和indomethacin(消炎痛)
  • 5.3.2 Migraine(偏头疼)和Magnesium(镁)
  • 5.3.3 Schizophrenia(精神分裂症)和Calcium-independent phospholipase A2(游离钙磷脂酶A2)
  • 5.4 实验方法讨论
  • 5.4.1 z分值、TFIDF、PMI结果对比分析
  • 5.4.2 语义类型和阈值分析
  • 5.4.3 融合计算分析
  • 5.4.4 概念检索和段落检索方法分析
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].生物医学的“数据冰山”[J]. 科学新闻 2019(06)
    • [2].生物医学大数据是重要战略资源[J]. 科学新闻 2019(06)
    • [3].目的论视域下生物医学论文翻译探析[J]. 大众标准化 2020(08)
    • [4].选择最合适的纤维织造、更安全的生物医学结构[J]. 中国纤检 2020(07)
    • [5].实验猕猴在生物医学研究中的福利管理[J]. 生命科学 2020(07)
    • [6].生物医学道德增强的伦理探析[J]. 大庆社会科学 2020(04)
    • [7].生物医学标准物质的发展与挑战[J]. 计量技术 2019(10)
    • [8].生物医学领域需要持续的科技创新[J]. 中国高等教育 2016(23)
    • [9].生物医学文本挖掘研究热点分析[J]. 中华医学图书情报杂志 2016(02)
    • [10].3D打印生物医学产业大有可为[J]. 新湘评论 2016(17)
    • [11].3D生物打印材料在生物医学领域中的应用及研究进展[J]. 中华临床医师杂志(电子版) 2019(02)
    • [12].生物医学研究中的实验记录及其存档与管理[J]. 生物技术通讯 2017(02)
    • [13].激光扫描共聚焦显微镜在生物医学中发展与应用[J]. 科教文汇(中旬刊) 2017(07)
    • [14].生物医学文献中的蛋白质相互作用抽取研究[J]. 山东工业技术 2016(20)
    • [15].生物医学大数据的现状与展望[J]. 健康之路 2018(12)
    • [16].“聚合”:生物医学酝酿第三次革命[J]. 科学新闻 2011(02)
    • [17].日本期刊《药物和生物医学分析》审稿过程实例分析[J]. 编辑学报 2011(04)
    • [18].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(05)
    • [19].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(04)
    • [20].《生物医学研究杂志》正式出版发行[J]. 南京医科大学学报(自然科学版) 2010(09)
    • [21].《生物医学研究杂志》正式批准[J]. 南京医科大学学报(社会科学版) 2009(04)
    • [22].《生物医学论文写作20讲》出版[J]. 中国学校卫生 2008(01)
    • [23].生物医学论文写作20讲出版[J]. 生殖医学杂志 2008(01)
    • [24].《生物医学论文写作20讲》出版[J]. 中国心理卫生杂志 2008(03)
    • [25].美研制出可广泛用于生物医学的新材料[J]. 功能材料信息 2008(02)
    • [26].上海市儿童生物医学研究知情同意执行情况调查[J]. 医学与社会 2020(01)
    • [27].关于我国涉及人的生物医学研究管理规范的思考[J]. 科技管理研究 2020(11)
    • [28].浅谈3D打印技术在生物医学领域的应用与发展[J]. 信息记录材料 2019(07)
    • [29].生物医学大数据的现状与发展趋势研究[J]. 科技与创新 2018(02)
    • [30].生物医学大数据发展的新挑战与趋势[J]. 中国科学院院刊 2018(08)

    标签:;  ;  ;  

    基于概念和段落检索的生物医学文献知识发现
    下载Doc文档

    猜你喜欢