基于SVM的中文文本自动分类系统的研究与实现

基于SVM的中文文本自动分类系统的研究与实现

论文摘要

近些年来,随着Internet的迅速发展,出现了大量的自然语言文本,如何在这些信息中提取对我们有用的信息已经成为当前研究的一个热点问题,同时这也是文本自动分类的主要任务之一。几何级数增长的电子文本、海量信息在日常生活中的传播,都迫切的需要我们对这些文本进行自动分类。使用文本自动分类系统可以帮助人们自动检索文本,以及判断文本的类别。分类问题是实际应用中普遍存在的问题,随着信息技术的快速发展,对其在理论研究和实际应用中提出了新的难题和挑战。建立在统计学习理论基础上的支持向量机是一种新型的机器学习方法,它根据有限的样本信息在模型的复杂度和期望风险之间寻求最佳方案,从而获得比较好的泛化性能。与传统的学习方法相比,SVM具有对维数不太敏感、收敛到全局最优点、泛化能力强等的优点,比较好的解决了传统算法中经常出现的维数灾难、局部极值、过学习等的棘手问题,逐渐成为近几年机器学习领域中一个非常活跃的研究热点。本文首先介绍了文本自动分类技术在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括中文文本分类的过程、中文分词方法、特征提取、特征项权重的计算方法以及几种比较常用的分类算法,分别进行了研究和探索;再次对SVM理论进行了概括性的介绍,包括统计学习理论、SVM的最优分类面、各种情况下的分类情况、SVM的核函数以及分类步骤等;接下来是构建一种SVM分类器,介绍了中文文本自动分类系统的总体框架,系统流程和各个功能模块;最后对分类系统中基于不同算法的分类器分别进行实验比较,着重对SVM算法中基于不同的核函数在不同的特征提取函数下的实验效果做了对比。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 文本分类的研究现状
  • 1.2.1 文本分类的国外研究现状
  • 1.2.2 文本分类的国内研究现状
  • 1.3 SVM 的研究现状
  • 1.4 本文的研究内容及组织结构
  • 第2章 中文文本自动分类技术
  • 2.1 中文文本自动分类概述
  • 2.1.1 文本分类的任务
  • 2.1.2 文本分类的过程
  • 2.2 文本的表示
  • 2.3 中文文本分词
  • 2.3.1 中文文本分词技术
  • 2.3.2 中文分词中的难题
  • 2.4 文本的特征提取
  • 2.4.1 信息增益
  • 2.4.2 互信息
  • 2.4.3 期望交叉熵
  • 2.4.4 X2-统计量
  • 2.4.5 文本证据权重
  • 2.5 特征项权重的计算
  • 2.5.1 布尔权重
  • 2.5.2 词频权重
  • 2.5.3 TFIDF 权重
  • 2.6 文本分类算法
  • 2.6.1 KNN 算法
  • 2.6.2 Bayes 算法
  • 2.6.3 SVM 算法
  • 2.7 分类器的性能评估
  • 2.8 本章小结
  • 第3章 SVM 在文本分类中的应用
  • 3.1 统计学习理论与支持向量机
  • 3.2 支持向量机分类
  • 3.2.1 最优分类面
  • 3.2.2 线性可分支持向量机
  • 3.2.3 线性不可分支持向量机
  • 3.2.4 非线性可分支持向量机
  • 3.3 核函数的研究现状
  • 3.4 支持向量机的应用步骤
  • 3.5 基于SVM 文本分类方法的优势
  • 3.6 基于SVM 文本分类方法中存在的问题
  • 3.7 本章小结
  • 第4章 支持向量机分类器的构建
  • 4.1 核函数
  • 4.1.1 核函数的存在性
  • 4.1.2 核函数的选择
  • 4.1.3 支持向量机参数优化研究
  • 4.2 支持向量机模型的建立
  • 4.2.1 惩罚系数C
  • 4.2.2 训练算法
  • 4.2.3 支持向量机的学习算法
  • 4.2.4 支持向量机多分类器算法
  • 4.3 本章小结
  • 第5章 实验设计与结果分析
  • 5.1 文本分类方法的性能评估方法
  • 5.2 实验准备工作
  • 5.2.1 实验数据
  • 5.2.2 实验环境及系统流程图
  • 5.3 常用文本分类算法性能比较
  • 5.3.1 KNN 算法比较
  • 5.3.2 BAYES 算法比较
  • 5.3.3 SVM 算法比较
  • 5.4 SVM 分类器
  • 5.5 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表论文目录
  • 相关论文文献

    • [1].文本自动分类技术研究综述[J]. 情报理论与实践 2012(02)
    • [2].一种面向专利文献数据的文本自动分类方法[J]. 计算机应用 2008(01)
    • [3].中文文本自动分类技术的研究[J]. 理工高教研究 2008(04)
    • [4].基于数据挖掘的文本自动分类仿真研究[J]. 计算机仿真 2011(12)
    • [5].网络环境下文本自动分类方法研究综述[J]. 鸡西大学学报 2009(05)
    • [6].中文文本自动分类中特征词选择算法研究[J]. 硅谷 2009(20)
    • [7].文本自动分类研究——基于径向基函数[J]. 情报科学 2013(05)
    • [8].文本自动分类新探究[J]. 赤峰学院学报(自然科学版) 2011(04)
    • [9].一种面向专利信息的文本自动分类算法[J]. 科技创新导报 2009(15)
    • [10].非均衡数据下基于卷积神经网络的专利文本自动分类研究[J]. 文献与数据学报 2020(03)
    • [11].中文文本自动分类中的特征选择改进与研究[J]. 工业控制计算机 2012(11)
    • [12].一种基于粗糙集文本自动分类的改进算法[J]. 计算机工程与应用 2011(24)
    • [13].文本自动分类算法的比较与研究[J]. 电脑知识与技术 2009(05)
    • [14].文本自动分类关键技术研究[J]. 微计算机信息 2008(06)
    • [15].一个中文文本自动分类器的设计[J]. 计算机应用与软件 2008(04)
    • [16].政媒融合问政平台非正式文本自动分类匹配研究[J]. 情报理论与实践 2020(06)
    • [17].数字文本自动分类中特征语义关联及加权策略研究综述与展望[J]. 现代图书情报技术 2016(09)
    • [18].基于TAN的文本自动分类框架[J]. 计算机工程 2010(16)
    • [19].基于CCIPCA-LSSVM的文本自动分类算法[J]. 科学技术与工程 2013(10)
    • [20].企业经营范围文本自动分类方法探究[J]. 标准科学 2012(01)
    • [21].基于量子自组织网络的Web文本自动分类方法[J]. 情报科学 2009(01)
    • [22].用于APP的缺陷文本自动分类与质量保证方法[J]. 电力系统及其自动化学报 2020(07)
    • [23].基于FastText的专利文本自动分类方法研究[J]. 仪器仪表标准化与计量 2020(04)
    • [24].基于机器学习的Web文本自动分类[J]. 软件导刊 2011(01)
    • [25].文本自动分类研究进展[J]. 软件导刊 2008(04)
    • [26].一种学科题目文本自动分类方法[J]. 中国索引 2015(04)
    • [27].基于word2vec的专利文本自动分类研究[J]. 信息技术 2020(02)
    • [28].一种基于词上下文向量的文本自动分类方法[J]. 情报科学 2008(07)
    • [29].基于KNN和SVM的中文文本自动分类研究[J]. 情报科学 2011(09)
    • [30].基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J]. 图书情报知识 2010(04)

    标签:;  ;  ;  ;  ;  

    基于SVM的中文文本自动分类系统的研究与实现
    下载Doc文档

    猜你喜欢