基于数据挖掘技术的专利信息分析及应用研究

基于数据挖掘技术的专利信息分析及应用研究

论文摘要

专利信息是最新的科技发展水平的集合,具有内容新颖、覆盖面广、实用可靠、信息量大等显著特点,在国家政府机构的决策、技术创新、资源的配置、科技项目的规划、行业的发展方向、企业的经营决策等各方面都拥有巨大的价值及潜在价值。传统的统计分析方法已经不能满足人们开发利用专利信息资源的需求,集成了多种学科技术的数据挖掘成为了专利信息分析法的必然发展趋势。数据挖掘技术是解决数据丰富而知识贫乏的有效途径,是信息科学研究领域的重要研究课题之一,相关的研究和应用能够提高决策支持的能力,在数据库研究中是一个富有应用前景的领域。数据挖掘已经广泛应用于诸多领域以解决许多商业问题,并且取得了良好的社会效应。由于专利信息的特殊性——同时具有外部特征项和内部特征项,既有需要进行定量分析的外部指标,又有需要定性分析的文本内容,所以作为数据挖掘技术重要技术手段的关联分析和文本聚类有着非常广泛的应用前景。关联规则挖掘是从大量的、不准确的、嘈杂的现实数据中挖掘出隐含在其中的、潜在的有价值的相关信息和知识的过程。文从Agrawal等人第一次提出了基于商业数据库的项集之间的关联关系研究问题以来,很多研究人员对挖掘数据中潜在的关联规则问题进行了大量的更加深入的研究。本聚类首先需要对文本进行预处理,通过分词、特征选择或特征抽取等过程将文本转化成计算机可处理的格式化数据如文本向量,然后使用聚类算法进行聚类。层次聚类方法对给定的数据集进行层次似的分解,直到某种条件满足为止。相较于另一种较为常见的聚类算法——以k-means和k-medoids为代表的划分方法而言,层次聚类法不需要预先指定聚类的个数,更有利于在不清楚数据属性的情况下进行文本聚类。在数据挖掘技术的应用方面,本文面向专利信息挖掘应用的实际需求,分析了专利文献的应用及其用途,研究了专利技术、专利文献的自身特点,以及专利文献蕴涵的丰富的技术信息、法律信息和商业信息,寻找将数据挖掘技术应用到专利文献中的途径。并以混合动力电动汽车领域在中国境内专利申请情况为主要背景,在行业研究的基础上,利用数据挖掘技术中的关联规则挖掘和文本聚类分析相结合的方法对丰田自动车株式会社在华申请的所有专利进行了深入分析,将数据挖掘的方法和知识理论应用到实际系统中,实现了专利文本信息与技术主题指标相结合,并为今后的专利信息挖掘工作提出了几点建议。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 1 绪论
  • 1.1 论文研究背景和意义
  • 1.1.1 专利信息分析研究现状
  • 1.1.2 数据挖掘技术在专利信息分析中的应用现状
  • 1.2 论文研究内容和方法
  • 1.2.1 主要研究内容
  • 1.2.2 主要研究方法
  • 1.3 论文研究特色和创新点
  • 2 专利分析相关数据挖掘技术研究
  • 2.1 数据挖掘技术概述
  • 2.2 数据挖掘主要功能
  • 2.3 数据挖掘的一般步骤
  • 2.4 关联规则
  • 2.4.1 关联分析中的基本术语
  • 2.4.2 关联规则挖掘分类
  • 2.4.3 关联规则挖掘及典型算法
  • 2.5 聚类分析
  • 2.5.1 聚类分析的基本概念
  • 2.5.2 聚类分析中的数据类型
  • 2.5.3 常见聚类算法及其分类
  • 2.5.4 聚类算法的比较分析研究
  • 2.5.5 聚类结果有效性的评价方法
  • 2.6 文本挖掘
  • 3 专利信息的一般分析
  • 3.1 专利信息分析基本概念
  • 3.2 混合动力汽车概述
  • 3.3 混合动力汽车相关专利的一般分析
  • 3.3.1 油电混合动力电动汽车专利现状
  • 3.3.2 专利申请地区分析
  • 3.3.3 技术主题分析
  • 3.3.4 国外来华主要申请人分析
  • 3.4 本章小结
  • 4 文本聚类分析在专利信息分析中的应用研究
  • 4.1 文本挖掘过程中主要技术研究
  • 4.1.1 文本预处理
  • 4.1.2 文本特征选择
  • 4.1.3 文本特征表示
  • 4.2 凝聚的层次聚类方法原理
  • 4.3 专利文本信息预处理
  • 4.4 内容特征项提取
  • 4.5 内容特征表示及建模
  • 4.6 专利文本聚类及结果分析
  • 4.6.1 基于欧式距离的层次聚类结果研究
  • 4.6.2 基于余弦指数的层次聚类结果研究
  • 4.7 本章小结
  • 5 关联规则在专利信息分析中的应用研究
  • 5.1 Aprioi算法基本原理
  • 5.2 混合动力汽车领域的关键技术说明
  • 5.3 专利技术主题关联规则挖掘
  • 5.3.1 数据准备
  • 5.3.2 关联规则挖掘结果
  • 5.4 基于聚类分析结果的关联规则挖掘
  • 5.4.1 文本聚类结果技术主题分析——簇2
  • 5.4.2 文本聚类结果技术主题分析——簇1
  • 5.4.3 文本聚类结果技术主题分析——簇3
  • 5.5 本章小结
  • 6 结合文本聚类及关联规则的专利信息分析结果阐述
  • 7 总结
  • 7.1 论文主要工作及成果
  • 7.2 论文存在的不足及改进方向
  • 致谢
  • 参考文献
  • 在学期间发表的学术论文和研究成果
  • 详细摘要
  • 相关论文文献

    • [1].我市召开高级专利信息服务研讨会[J]. 泰州科技 2011(11)
    • [2].专利信息管理和检索的最佳实践[J]. 国际学术动态 2009(04)
    • [3].面向粤港澳大湾区的图书馆专利信息服务[J]. 中国高校科技 2019(12)
    • [4].成都举办专利信息分析与利用能力提升培训班[J]. 河南科技 2019(36)
    • [5].中国专利信息[J]. 电镀与涂饰 2019(24)
    • [6].专利信息[J]. 佛山陶瓷 2019(12)
    • [7].中国专利信息[J]. 电镀与涂饰 2020(02)
    • [8].面向企业技术创新的高校图书馆专利信息服务障碍与对策[J]. 图书馆建设 2020(01)
    • [9].中国专利信息[J]. 电镀与涂饰 2020(04)
    • [10].中国专利信息[J]. 电镀与涂饰 2020(03)
    • [11].上肢康复训练系统专利信息分析[J]. 按摩与康复医学 2020(07)
    • [12].中国专利信息[J]. 电镀与涂饰 2020(05)
    • [13].中国专利信息[J]. 电镀与涂饰 2020(06)
    • [14].“双一流”高校图书馆专利信息服务调查分析[J]. 图书馆工作与研究 2020(02)
    • [15].图书馆开展粤港澳大湾区专利信息服务的探索[J]. 图书情报工作 2020(01)
    • [16].日本专利信息提供制度剖析[J]. 图书情报工作 2020(02)
    • [17].中国专利信息[J]. 电镀与涂饰 2020(08)
    • [18].中国专利信息[J]. 电镀与涂饰 2020(10)
    • [19].中国专利信息[J]. 电镀与涂饰 2020(09)
    • [20].高校图书馆专利信息服务实践与模式研究[J]. 科技视界 2020(12)
    • [21].京津冀地区高校专利信息服务现状调研分析[J]. 科技文献信息管理 2020(01)
    • [22].面向中小型企业的公共图书馆专利信息服务实践与思考[J]. 农业图书情报学报 2020(06)
    • [23].五味子产业专利信息分析[J]. 中国科技信息 2020(13)
    • [24].《抗击新型冠状病毒肺炎专利信息研报》辅助抗疫药物研发[J]. 河南科技 2020(06)
    • [25].安徽省中小企业专利信息服务需求调查及对策分析[J]. 安徽科技 2020(07)
    • [26].大学图书馆专利信息服务发展现状[J]. 甘肃科技 2020(11)
    • [27].基于专利信息分析的专利预警理论研究[J]. 河南科技 2020(27)
    • [28].专利信息分析对提升军工企业技术创新能力的策略研究[J]. 江苏科技信息 2020(23)
    • [29].高速光通信接收机专利信息与协议标准演进对标分析[J]. 中国发明与专利 2020(S1)
    • [30].专利信息和非专利信息在企业研发不同阶段的应用[J]. 中国发明与专利 2018(12)

    标签:;  ;  ;  ;  

    基于数据挖掘技术的专利信息分析及应用研究
    下载Doc文档

    猜你喜欢