面向情报领域的文本自动分类系统的设计与实现

面向情报领域的文本自动分类系统的设计与实现

论文摘要

随着信息技术的高速发展,以文本格式存储的信息大量出现在Internet、数字图书馆及各种电子刊物上。如何准确有效地查找我们所需要的信息,是近几年研究的热点。文本自动分类技术能够根据文本内容自动对文本进行分门别类,特别适合在海量的文本信息中高效地查找我们所需的信息,是解决上述问题的一种有效手段。本文以军事情报的整编处理为应用背景,主要采用SVM分类算法和词典分词法,设计并实现了面向情报领域的文本自动分类系统。该系统可以实现对军事情报信息的自动分类,解决军事情报处理中的文本处理的关键技术,为军用情报系统的研制提供文本分类处理的算法和模型。本文的主要研究成果有:1)在已有文本分类系统模型的基础上,结合情报分类系统需要使用的技术,分析了文本分类系统中需要的关键技术。2)在给出情报分类系统整体设计方案的基础上,通过比较各种分类算法以及中文分词技术,结合情报领域自身的特点,运用SVM分类算法和词典分词法实现了该情报分类系统。并针对TF/IDF词语权重计算的缺点,提出了运用文本的可分性判据和情报领域自身的特点来改进的词语权重计算方法。3)通过大量的实验数据,验证了本系统在情报领域自动分类的可行性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 文本自动分类研究的必要性
  • 1.1.2 文本自动分类面临的主要问题
  • 1.1.3 本文的研究背景及研究环境
  • 1.2 本文的工作
  • 1.2.1 本文的主要研究内容
  • 1.2.2 本文的结构和组织
  • 第二章 文本自动分类概述
  • 2.1 文本自动分类一般过程
  • 2.2 文本表达法
  • 2.3 维度约简
  • 2.3.1 特征选择
  • 2.3.2 特征抽取
  • 2.4 文本自动分类算法
  • 2.5 分类性能评价
  • 2.6 文本自动分类的应用
  • 2.7 本章小结
  • 第三章 SVM 算法的实现
  • 3.1 SVM 算法简介
  • 3.2 SVM 算法的优点与不足
  • 3.2.1 SVM 算法的优点
  • 3.2.2 SVM 算法的不足
  • 3.3 SVM 算法的伪代码实现
  • 3.4 主要的数据结构和接口函数
  • 3.4.1 主要的数据结构
  • 3.4.2 主要的接口函数
  • 3.5 SVM 算法实现
  • 3.6 本章小结
  • 第四章 中文分词的实现
  • 4.1 中文分词算法
  • 4.2 ICTCLAS 分词软件
  • 4.3 应用词典法实现中文分词
  • 4.3.1 词典法实现中文分词的一般过程
  • 4.3.2 词典的分词机制
  • 4.3.3 词典的物理组织
  • 4.3.4 词典的逻辑组织
  • 4.4 本章小结
  • 第五章 情报分类系统的设计与实现
  • 5.1 情报分类系统的整体设计
  • 5.2 文本的预处理
  • 5.3 文本表示
  • 5.4 词频空间特征提取方法设计
  • 5.4.1 特征抽取算法设计
  • 5.4.2 文本描述中权重的算法设计
  • 5.5 应用SVM 算法实现文本分类系统
  • 5.5.1 向量空间模型介绍
  • 5.5.2 应用SVM 实现文本分类系统
  • 5.6 实验结果及性能评估
  • 5.7 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 进一步要研究的内容
  • 致谢
  • 参考文献
  • 作者在读期间的研究成果
  • 相关论文文献

    • [1].文本自动分类技术研究综述[J]. 情报理论与实践 2012(02)
    • [2].一种面向专利文献数据的文本自动分类方法[J]. 计算机应用 2008(01)
    • [3].中文文本自动分类技术的研究[J]. 理工高教研究 2008(04)
    • [4].基于数据挖掘的文本自动分类仿真研究[J]. 计算机仿真 2011(12)
    • [5].网络环境下文本自动分类方法研究综述[J]. 鸡西大学学报 2009(05)
    • [6].中文文本自动分类中特征词选择算法研究[J]. 硅谷 2009(20)
    • [7].文本自动分类研究——基于径向基函数[J]. 情报科学 2013(05)
    • [8].文本自动分类新探究[J]. 赤峰学院学报(自然科学版) 2011(04)
    • [9].一种面向专利信息的文本自动分类算法[J]. 科技创新导报 2009(15)
    • [10].中文文本自动分类中的特征选择改进与研究[J]. 工业控制计算机 2012(11)
    • [11].一种基于粗糙集文本自动分类的改进算法[J]. 计算机工程与应用 2011(24)
    • [12].文本自动分类算法的比较与研究[J]. 电脑知识与技术 2009(05)
    • [13].文本自动分类关键技术研究[J]. 微计算机信息 2008(06)
    • [14].一个中文文本自动分类器的设计[J]. 计算机应用与软件 2008(04)
    • [15].政媒融合问政平台非正式文本自动分类匹配研究[J]. 情报理论与实践 2020(06)
    • [16].数字文本自动分类中特征语义关联及加权策略研究综述与展望[J]. 现代图书情报技术 2016(09)
    • [17].基于TAN的文本自动分类框架[J]. 计算机工程 2010(16)
    • [18].基于CCIPCA-LSSVM的文本自动分类算法[J]. 科学技术与工程 2013(10)
    • [19].企业经营范围文本自动分类方法探究[J]. 标准科学 2012(01)
    • [20].基于量子自组织网络的Web文本自动分类方法[J]. 情报科学 2009(01)
    • [21].用于APP的缺陷文本自动分类与质量保证方法[J]. 电力系统及其自动化学报 2020(07)
    • [22].基于FastText的专利文本自动分类方法研究[J]. 仪器仪表标准化与计量 2020(04)
    • [23].基于机器学习的Web文本自动分类[J]. 软件导刊 2011(01)
    • [24].文本自动分类研究进展[J]. 软件导刊 2008(04)
    • [25].一种学科题目文本自动分类方法[J]. 中国索引 2015(04)
    • [26].基于word2vec的专利文本自动分类研究[J]. 信息技术 2020(02)
    • [27].一种基于词上下文向量的文本自动分类方法[J]. 情报科学 2008(07)
    • [28].基于KNN和SVM的中文文本自动分类研究[J]. 情报科学 2011(09)
    • [29].基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J]. 图书情报知识 2010(04)
    • [30].网络教育资源的特征选择研究[J]. 教育与职业 2008(12)

    标签:;  ;  ;  ;  

    面向情报领域的文本自动分类系统的设计与实现
    下载Doc文档

    猜你喜欢