药物专利的数据挖掘技术研究

药物专利的数据挖掘技术研究

论文摘要

目前,英、美、法等发达国家已经建成了世界权威的专利数据库,对药物化学专利文献处理方面的技术比较成熟,我国近几年也十分重视药物化学信息资源的建设和计算机处理水平的发展并取得了一定的成果。事实证明对专利文献深度挖掘和高技术处理能够明显提高数据库的查全率和查准率,本文以此为出发点,使用目前被广泛应用于各个领域的数据挖掘技术全面处理了药物专利中包含的化学结构图形和文本信息。本论文运用面向对象编程技术,使用C++编程语言完善了本课题组开发的化学结构图形输入输出软件StruDraw,实现了文字向结构图形的翻译功能。用户只需输入要查找的化合物名称便可在图形输出界面得到所需的化学结构图形,免去了费时费力查找资料的过程。本文的重点是药物专利文本信息的处理。保证查全率和查准率的关键在于专利文献的分类准确度,数据挖掘类型之一便是文本的自动分类,机器学习算法是实现数据挖掘技术的手段。本文为实现药物专利分类的机器处理,结合药物专利本身特点,使用机器学习算法实现了专利文本自动分类。首先对2000余份药物专利按照治疗功能分类,抽取其中五类作为训练样本,对每一类提取特征文本,使用向量空间模型将非结构化的文本进行数字化表示,分别使用支持向量机(Support Vector Machine,SVM),朴素贝叶斯(Na(?)ve Bayes,NB),径向基神经网络(Radical Basis Function Network,RBFNetwork)对专利样本进行分类测试,并通过各种分类模型评估指标对这三种分类算法进行了分类性能评估,证明SVM算法在药物专利自动文本分类方面的优越性。使用机器学习算法对药物化学专利分类,取代了以往人工分类的方法,为专利信息检索奠定了基础。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 药物专利信息检索现状
  • 1.2 论文的主要工作、组织结构
  • 2 药物专利中结构信息的检索
  • 2.1 药物专利结构信息处理国内外发展状况
  • 2.1.1 历史回顾
  • 2.1.2 国外研究成果
  • 2.1.3 国内研究工作
  • 2.2 化学结构信息的计算机表达以及存储方式
  • 2.2.1 化学结构的计算机表达
  • 2.2.2 化学结构的存储形式
  • 3 药物专利文本信息的处理
  • 3.1 机器学习算法简介
  • 3.1.1 神经网络
  • 3.1.2 贝叶斯学习算法
  • 3.1.3 支持向量机
  • 3.2 专利文本预处理过程
  • 3.2.1 中文文本自动分词技术
  • 3.2.2 文本特征提取技术
  • 3.2.3 文本表示模型
  • 4 数据挖掘技术在药物专利中的应用
  • 4.1 文字向化学结构图形的翻译技术
  • 4.1.1 问题的提出及总体设计思想
  • 4.1.2 文字向化学结构图形的翻译技术的程序设计与实现
  • 4.2 药物专利文本挖掘技术
  • 4.2.1 问题的提出及总体结构
  • 4.2.2 数据库设计及数据存储
  • 4.2.3 文本预处理
  • 4.2.4 分类性能评估指标
  • 4.2.5 实验结果与分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    药物专利的数据挖掘技术研究
    下载Doc文档

    猜你喜欢