多类别科技文献自动分类系统

多类别科技文献自动分类系统

论文摘要

随着计算机与通讯技术的飞速发展、互联网的普及与应用,包括科技文献在内的各种文本信息呈爆炸式增长,这为人们合理有效地组织和管理海量的文本数据带来了极大的挑战。对科技文献等文本信息进行有效组织和管理通常都需要对文本进行自动分类。目前常用的文本分类方法主要有支持向量机(Support Vector Machine, SVM)和k近邻(k-Nearest Neighbor, kNN),然而这些方法存在一些不足之处:支持向量机主要针对两类分类问题,不能直接应用于多类分类,且该方法应用于大数据集时训练速度较慢;k近邻方法对于样本容量较小的类域容易产生错分,且k的取值不容易确定。针对以上问题,提出了支持向量机和k近邻相结合的多类别分类方法(Multi-class SVM-kNN, MSVM-kNN),该方法首先采用支持向量机构建分类器,在该过程中利用增量学习方法提高了训练速度;然后针对不可分情况,采用k近邻方法来处理。另外,还对多类别多标签分类方法及自动分类的其他相关技术进行了研究,包括特征取、特征项权重计算等。通过对文本分类相关技术的研究,根据“基于语义的科技文献检索与共享平台SemreX”的实际需要,设计并实现了多类别文献自动分类系统MALC(Multi-class Automatic Literature Categorization System)。使用20-Newsgroups数据集和ACM数据集进行了测试。MSVM-kNN方法在ACM数据集上的准确率、召回率和F-measure值分别为:90.18%、88.79%、0.89,而所测得的k近邻、支持向量机的这三个性能指标分别为:81.64%、77.78%、0.8,86.11%、84.44%、0.85。测试结果表明:与传统的分类方法相比,该方法分类效率较高,且有较高的准确率、召回率和较好的稳定性。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 问题提出
  • 1.2 自动分类的研究意义
  • 1.3 国内外研究现状
  • 1.4 课题背景与研究内容
  • 1.5 文章组织结构
  • 2 多类别文献自动分类系统的设计
  • 2.1 科技文献共享平台 SemreX 简介
  • 2.2 MALC 系统的主要设计思想
  • 2.3 MALC 系统的体系结构
  • 2.4 MALC 系统的工作流程
  • 2.5 小结
  • 3 多类别文献自动分类方法
  • 3.1 支持向量机与 k 近邻分类方法分析
  • 3.2 多类别单标签分类方法 MSVM-kNN
  • 3.3 多类别多标签分类方法
  • 3.4 小结
  • 4 多类别文献自动分类系统的主要实现技术
  • 4.1 文献预处理
  • 4.2 特征降维
  • 4.3 权重计算
  • 4.4 分类器设计
  • 4.5 小结
  • 5 系统测试与分析
  • 5.1 测试环境
  • 5.2 功能测试
  • 5.3 性能测试
  • 5.4 小结
  • 6 结语及工作展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 附录1 攻读学位期间发表论文目录
  • 附录2 攻读学位期间软件著作版权目录
  • 相关论文文献

    • [1].文本自动分类技术研究综述[J]. 情报理论与实践 2012(02)
    • [2].一种面向专利文献数据的文本自动分类方法[J]. 计算机应用 2008(01)
    • [3].中文文本自动分类技术的研究[J]. 理工高教研究 2008(04)
    • [4].基于数据挖掘的文本自动分类仿真研究[J]. 计算机仿真 2011(12)
    • [5].网络环境下文本自动分类方法研究综述[J]. 鸡西大学学报 2009(05)
    • [6].中文文本自动分类中特征词选择算法研究[J]. 硅谷 2009(20)
    • [7].文本自动分类研究——基于径向基函数[J]. 情报科学 2013(05)
    • [8].文本自动分类新探究[J]. 赤峰学院学报(自然科学版) 2011(04)
    • [9].一种面向专利信息的文本自动分类算法[J]. 科技创新导报 2009(15)
    • [10].中文文本自动分类中的特征选择改进与研究[J]. 工业控制计算机 2012(11)
    • [11].一种基于粗糙集文本自动分类的改进算法[J]. 计算机工程与应用 2011(24)
    • [12].文本自动分类算法的比较与研究[J]. 电脑知识与技术 2009(05)
    • [13].文本自动分类关键技术研究[J]. 微计算机信息 2008(06)
    • [14].一个中文文本自动分类器的设计[J]. 计算机应用与软件 2008(04)
    • [15].政媒融合问政平台非正式文本自动分类匹配研究[J]. 情报理论与实践 2020(06)
    • [16].数字文本自动分类中特征语义关联及加权策略研究综述与展望[J]. 现代图书情报技术 2016(09)
    • [17].基于TAN的文本自动分类框架[J]. 计算机工程 2010(16)
    • [18].基于CCIPCA-LSSVM的文本自动分类算法[J]. 科学技术与工程 2013(10)
    • [19].企业经营范围文本自动分类方法探究[J]. 标准科学 2012(01)
    • [20].基于量子自组织网络的Web文本自动分类方法[J]. 情报科学 2009(01)
    • [21].用于APP的缺陷文本自动分类与质量保证方法[J]. 电力系统及其自动化学报 2020(07)
    • [22].基于FastText的专利文本自动分类方法研究[J]. 仪器仪表标准化与计量 2020(04)
    • [23].基于机器学习的Web文本自动分类[J]. 软件导刊 2011(01)
    • [24].文本自动分类研究进展[J]. 软件导刊 2008(04)
    • [25].一种学科题目文本自动分类方法[J]. 中国索引 2015(04)
    • [26].基于word2vec的专利文本自动分类研究[J]. 信息技术 2020(02)
    • [27].一种基于词上下文向量的文本自动分类方法[J]. 情报科学 2008(07)
    • [28].基于KNN和SVM的中文文本自动分类研究[J]. 情报科学 2011(09)
    • [29].基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J]. 图书情报知识 2010(04)
    • [30].网络教育资源的特征选择研究[J]. 教育与职业 2008(12)

    标签:;  ;  ;  ;  ;  

    多类别科技文献自动分类系统
    下载Doc文档

    猜你喜欢