基于模糊逻辑的专利数据层次分类研究

基于模糊逻辑的专利数据层次分类研究

论文摘要

随着经济全球化的日益深入和知识经济的发展,知识产权,尤其是专利,引起了国家、地区和产业界的高度重视,拥有核心技术专利已成为企业市场竞争的战略制高点。专利数据含有大量有用信息,表明技术发展方向和趋势,对企业技术研发策略的制定有重要参考价值。但目前的专利数据分析技术普遍存在着效率低下,周期过长等弊端。专利申请量的激增一方面增加了对快速、自动专利分析的迫切需求,另一方面又为基于数据挖掘技术的专利文本挖掘方法准备了充分的资源,因此计算机辅助专利分析成为了大势所趋。目前专利数据人工分类普遍存在着效率低下,错误过多等弊端;在实际专利文本分类中,一篇专利文献可以属于不同的类别,在这方面与一般文本分类方法是不同的;现有的专利文本分类大多都采用了传统的文本分类算法,没有考虑到专利数据所涉及到多个学科领域,同族专利的相似度比较大等问题。基于以上的考虑,本文着重研究了专利文本挖掘中的自动分类问题。首先详细的说明了专利数据的信息特征以及国际IPC分类的概况,并根据专利数据的特点,提出了针对于专利数据的特征提取方法,在提到的特征提取方法当中,引入了位置权重,使得专利文本向量表示更加准确;其次,在第四章当中概述了一般文本分类算法,并延伸出了专利自动文本分类算法。基于考虑到对专利分析时要对专利数据作深层次的细分,以及在研究同族专利时候,会有一些关于交叉学科的专利归属于不只一个类别当中。我们提出了基于模糊逻辑的专利数据层次分类算法,详细的算法在第五章当中做了比较详细的描述;最后,我们构建了一个类层次结构模型,采用查准率和查全率作为分类结果的评价指标,对170组专利数据进行仿真试验,在第一,二层次上的都达到了比较理想的分类效果,在第三层次上的分类效果一般,还需要新的改进。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 选题的背景和意义
  • 1.2 专利数据知识发现概述
  • 1.2.1 专利文本挖掘研究现状
  • 1.2.2 专利文本挖掘的方法
  • 1.2.3 专利文本挖掘的过程
  • 1.3 专利文本分类的研究进展
  • 1.4 本文研究的主要内容
  • 第二章 专利数据信息特征及国际IPC分类
  • 2.1 专利数据信息特征
  • 2.1.1 技术信息特征
  • 2.1.2 法律信息特征
  • 2.1.3 经济信息特征
  • 2.2 专利说明书的组成部分
  • 2.2.1 扉页
  • 2.2.2 说明书
  • 2.2.3 权利要求书
  • 2.2.4 附图
  • 2.2.5 检索报告
  • 2.3 IPC分类系统层次结构
  • 2.4 专利数据分析方法
  • 2.4.1 专利数据的定量分析
  • 2.4.2 专利数据的定性分析
  • 2.4.3 专利地图及其应用
  • 第三章 专利文本分类的预处理
  • 3.1 文档的向量空间模型
  • 3.2 特征提取算法
  • 3.2.1 信息增益选择算法(IG)
  • 3.2.2 互信息量(MI)
  • 3.2.3 词条的χ2 统计(CHI)
  • 3.2.4 期望交叉熵
  • 3.2.5 TFIDF权重计算公式
  • 3.3 专利文本分类特征提取
  • 3.4 本章小结
  • 第四章 专利文本分类的主要方法
  • 4.1 文本分类的主要方法
  • 4.1.1 最小距离分类器
  • 4.1.2 朴素贝叶斯分类器(NB)
  • 4.1.3 最近邻居分类法(KNN)
  • 4.1.4 决策树分类
  • 4.1.5 支持向量机分类算法
  • 4.2 专利文本分类算法
  • 4.2.1 SVM-KNN组合改进算法
  • 4.2.2 面向专利数据的层次分类算法
  • 4.3 专利文本分类的特点
  • 4.4 总结
  • 第五章 基于模糊逻辑的专利数据层次分类方法
  • 5.1 层次分类器的构建
  • 5.2 专利数据自动分类
  • 5.3 仿真实验
  • 5.3.1 层次分类器的仿真
  • 5.3.2 分类结果及其分析
  • 第六章 总结
  • 参考文献
  • 附录
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于模糊逻辑的专利数据层次分类研究
    下载Doc文档

    猜你喜欢