论文摘要
目前,英、美、法等发达国家已经建成了世界权威的专利数据库,对药物化学专利文献处理方面的技术比较成熟,我国近几年也十分重视药物化学信息资源的建设和计算机处理水平的发展并取得了一定的成果。事实证明对专利文献深度挖掘和高技术处理能够明显提高数据库的查全率和查准率,本文以此为出发点,使用目前被广泛应用于各个领域的数据挖掘技术全面处理了药物专利中包含的化学结构图形和文本信息。本论文运用面向对象编程技术,使用C++编程语言完善了本课题组开发的化学结构图形输入输出软件StruDraw,实现了文字向结构图形的翻译功能。用户只需输入要查找的化合物名称便可在图形输出界面得到所需的化学结构图形,免去了费时费力查找资料的过程。本文的重点是药物专利文本信息的处理。保证查全率和查准率的关键在于专利文献的分类准确度,数据挖掘类型之一便是文本的自动分类,机器学习算法是实现数据挖掘技术的手段。本文为实现药物专利分类的机器处理,结合药物专利本身特点,使用机器学习算法实现了专利文本自动分类。首先对2000余份药物专利按照治疗功能分类,抽取其中五类作为训练样本,对每一类提取特征文本,使用向量空间模型将非结构化的文本进行数字化表示,分别使用支持向量机(Support Vector Machine,SVM),朴素贝叶斯(Na(?)ve Bayes,NB),径向基神经网络(Radical Basis Function Network,RBFNetwork)对专利样本进行分类测试,并通过各种分类模型评估指标对这三种分类算法进行了分类性能评估,证明SVM算法在药物专利自动文本分类方面的优越性。使用机器学习算法对药物化学专利分类,取代了以往人工分类的方法,为专利信息检索奠定了基础。
论文目录
相关论文文献
标签:数据挖掘论文; 机器学习论文; 药物专利论文; 文字向化学结构的翻译论文; 文本分类论文;