论文摘要
随着经济全球化的日益深入和知识经济的发展,知识产权,尤其是专利,引起了国家、地区和产业界的高度重视,拥有核心技术专利已成为企业市场竞争的战略制高点。专利数据含有大量有用信息,表明技术发展方向和趋势,对企业技术研发策略的制定有重要参考价值。但目前的专利数据分析技术普遍存在着效率低下,周期过长等弊端。专利申请量的激增一方面增加了对快速、自动专利分析的迫切需求,另一方面又为基于数据挖掘技术的专利文本挖掘方法准备了充分的资源,因此计算机辅助专利分析成为了大势所趋。目前专利数据人工分类普遍存在着效率低下,错误过多等弊端;在实际专利文本分类中,一篇专利文献可以属于不同的类别,在这方面与一般文本分类方法是不同的;现有的专利文本分类大多都采用了传统的文本分类算法,没有考虑到专利数据所涉及到多个学科领域,同族专利的相似度比较大等问题。基于以上的考虑,本文着重研究了专利文本挖掘中的自动分类问题。首先详细的说明了专利数据的信息特征以及国际IPC分类的概况,并根据专利数据的特点,提出了针对于专利数据的特征提取方法,在提到的特征提取方法当中,引入了位置权重,使得专利文本向量表示更加准确;其次,在第四章当中概述了一般文本分类算法,并延伸出了专利自动文本分类算法。基于考虑到对专利分析时要对专利数据作深层次的细分,以及在研究同族专利时候,会有一些关于交叉学科的专利归属于不只一个类别当中。我们提出了基于模糊逻辑的专利数据层次分类算法,详细的算法在第五章当中做了比较详细的描述;最后,我们构建了一个类层次结构模型,采用查准率和查全率作为分类结果的评价指标,对170组专利数据进行仿真试验,在第一,二层次上的都达到了比较理想的分类效果,在第三层次上的分类效果一般,还需要新的改进。
论文目录
中文摘要ABSTRACT第一章 绪论1.1 选题的背景和意义1.2 专利数据知识发现概述1.2.1 专利文本挖掘研究现状1.2.2 专利文本挖掘的方法1.2.3 专利文本挖掘的过程1.3 专利文本分类的研究进展1.4 本文研究的主要内容第二章 专利数据信息特征及国际IPC分类2.1 专利数据信息特征2.1.1 技术信息特征2.1.2 法律信息特征2.1.3 经济信息特征2.2 专利说明书的组成部分2.2.1 扉页2.2.2 说明书2.2.3 权利要求书2.2.4 附图2.2.5 检索报告2.3 IPC分类系统层次结构2.4 专利数据分析方法2.4.1 专利数据的定量分析2.4.2 专利数据的定性分析2.4.3 专利地图及其应用第三章 专利文本分类的预处理3.1 文档的向量空间模型3.2 特征提取算法3.2.1 信息增益选择算法(IG)3.2.2 互信息量(MI)3.2.3 词条的χ2 统计(CHI)3.2.4 期望交叉熵3.2.5 TFIDF权重计算公式3.3 专利文本分类特征提取3.4 本章小结第四章 专利文本分类的主要方法4.1 文本分类的主要方法4.1.1 最小距离分类器4.1.2 朴素贝叶斯分类器(NB)4.1.3 最近邻居分类法(KNN)4.1.4 决策树分类4.1.5 支持向量机分类算法4.2 专利文本分类算法4.2.1 SVM-KNN组合改进算法4.2.2 面向专利数据的层次分类算法4.3 专利文本分类的特点4.4 总结第五章 基于模糊逻辑的专利数据层次分类方法5.1 层次分类器的构建5.2 专利数据自动分类5.3 仿真实验5.3.1 层次分类器的仿真5.3.2 分类结果及其分析第六章 总结参考文献附录致谢
相关论文文献
标签:专利分析论文; 模糊逻辑论文; 文本分类论文; 特征提取论文;