基于内容分析的专利挖掘技术研究

基于内容分析的专利挖掘技术研究

论文摘要

近十几年来,专利挖掘的研究越来越被重视。早先,专利研究主要基于在专利数据库,近几年,专利研究转向基于自然语言处理的技术或者信息检索的技术。推动专利挖掘技术发展的主要因素:一方面统计机器学习的方法不断的发展和改进,为解决专利挖掘以及自然语料处理提供了强大的方法论武器;另一方面,自然语言处理的技术以及信息检索的技术的进步,促进了专利文本挖掘的发展。同时,专利挖掘的评测举办,为专利挖掘提供了技术交流的平台,促进了专利挖掘研究的进步,并为专利文本处理提供了发展的方向。本文通过研究专利文本的特点,对不同的训练语料做数据统计,分析专利挖掘任务中的难点问题。基于自然语言处理的专利挖掘技术,遇到几大问题:(1)专利挖掘是一个大规模的文本分析任务;(2)专利文本内容涉及到技术发展的各个领域,领域之间交叉现象严重,不利于文本分类;(3)专利文本在各个领域上数量分布不均衡,大量的类别下训练数据不充分;(4)专利文本的分类体系与传统分类体系不同,尤其是国际专利分类标准,具有超大规模的类别空间,多层次等特点;(5)专利的国际分类都是多标签标记,因此专利分类是多标签的分类问题。上述几个主要问题,决定了专利文本处理与传统的文本处理的不同。本文围绕专利挖掘任务中的问题,从不同的方面研究提高专利挖掘系统的性能。作者在前人的工作基础上,综合了多个领域的技术,提出了一些专利挖掘的处理技术。文本解决专利挖掘问题的主要技术:(1)本文采用基于自然处理的分类系统的框架,处理专利挖掘的任务。(2)本文研究了在大规模的数据的分类问题,采用信息检索中常用的检索技术——倒排索引文档——应用到分类模型中,提高分类模型的计算速度。(3)本文提出了类别归并的方法解决数据分布不均衡的问题。在国际专利分类系统下,大量的类别中数据样本很少,采用多种归并的方法将小类别聚合成大类别,解决分布不均衡的问题。(4)专利挖掘任务中,文本之间的相似度计算的是重要的研究环节。本文采用了多种相似度计算方法,在数据非同源的任务中,BM25的计算方法性能较好,并比较稳定。(5)本文提出了多种类别排序的决策方法。分类器给定样本之间的相似度的方法,需要通过某种转化的机制,映射成类别标记的排序。文本提出了带用类别信息的相似度加和的方法以及基于Log-linear模型的线性加和方法,对类别进行Rank,实验结果显示带用类别信息的相似度加和的方法以及基于Log-linear模型的线性加和方法性能较好。本文基于NTCIRT-7的专利挖掘评测任务的平台,在美国专利以及日本专利的英文翻译的数据上,实现专利挖掘的分类系统,并针对专利挖掘的主要问题和核心技术做了大量实验,并做了详细的数据分析。最后确定解决专利挖掘任务的最可信的系统。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 相关工作
  • 1.4 本文的研究内容
  • 第二章 专利挖掘任务及系统架构
  • 2.1 专利基本概念
  • 2.1.1 专利概念
  • 2.1.2 专利分类表
  • 2.2 专利挖掘任务
  • 2.2.1 专利挖掘任务描述
  • 2.2.2 专利挖掘任务数据
  • 2.2.3 评价方法
  • 2.3 专利挖掘中的问题分析
  • 2.4 专利挖掘系统架构
  • 2.4.1 问题提出
  • 2.4.2 系统架构
  • 2.5 小结
  • 第三章 分类技术
  • 3.1 文本分类定义
  • 3.2 特征选取方法
  • 3.2.1 文档频度
  • 3.2.2 类别频度
  • 3.2.3 信息增益
  • 3.2.4 CHI-统计
  • 3.3 特征权重的计算方法
  • 3.3.1 布尔权重
  • 3.3.2 词频权重
  • 3.3.3 tf×idf-权重
  • 3.4 分类器
  • 3.4.1 KNN分类器
  • 3.4.2 支持向量机
  • 3.5 小结
  • 第四章 专利文本的向量表示
  • 4.1 问题提出
  • 4.2 训练数据的存储
  • 4.2.1 倒排索引技术
  • 4.2.2 专利倒排存储
  • 4.3 专利文本向量表示
  • 4.3.1 数据的预处理
  • 4.3.2 特征选取的方法
  • 4.3.3 类别中心向量表示方法
  • 4.4 实验及分析
  • 4.4.1 基于同源数据的实验
  • 4.4.2 基于专利不同字段实验
  • 4.4.3 特征选取的方法实验
  • 4.4.4 基于USPTO的不同K值实验
  • 4.4.5 基于中心向量的方法
  • 4.4.6 类别归并的方法实验
  • 4.5 小结
  • 第五章 文本相似度计算方法
  • 5.1 向量余弦
  • 5.2 BM25
  • 5.3 SMART算法
  • 5.4 Pivoted Normalisation方法
  • 5.5 Log-linear
  • 5.6 实验及分析
  • 5.6.1 实验数据
  • 5.6.2 评价方法
  • 5.6.3 实验及分析
  • 5.7 小结
  • 第六章 基于多种RANKING的决策方法
  • 6.1 求异排序
  • 6.2 投票方法
  • 6.3 相似度加和
  • 6.4 相似度均值
  • 6.5 类别权重加和
  • 6.6 相似度位置权重加和
  • 6.7 实验及分析
  • 6.7.1 基于不同Ranking方法比较实验及分析
  • 6.7.2 基于Rank-SVM决策方法实验
  • 6.7.3 多个最优系统线性组合实验及分析
  • 6.8 小结
  • 第七章 总结及展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于内容分析的专利挖掘技术研究
    下载Doc文档

    猜你喜欢