基于VSM模型和特征选择算法的中文文本自动分类研究

基于VSM模型和特征选择算法的中文文本自动分类研究

论文摘要

文本分类(Text Categorization)是指根据文本的内容,计算机按照某种自动分类算法,把文本判分为预先定义好的类别。文本分类在信息检索,信息过滤,基于个性化的信息服务等方面有着重要用途。随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。实现文本自动分类的基本困难之一是特征项空间的维数过高,数量过大的特征项一方面导致分类算法的代价过高,另一方面导致无法准确地提取文档的类别信息,造成分类效果不佳。因此,需要在不牺牲分类质量的前提下尽可能地降低特征项空间的维数。本文研究如何利用向量空间模型(VSM)和特征选择技术来有效对文本特征向量空间进行降维,减少维数过高对分类结果召回率和准确率的影响。本文针对特征选择算法中tf-idf无法反映词汇的重要程度和特征词的分布情况和互信息没有考虑特征项出现在文本中的次数提出改进方法,同时还引入测量学中的区分度方法来对文本进行特征选择,然后通过SVM分类算法进行分析、统计、学习,最后得到一个自动的文本分类系统。本文是在向量空间模型(VSM)的基础上对中文文本自动分类进行研究,研究的主要内容和创新点如下:1.本文针对向量空间模型(VSM)中的tf-idf存在的不足提出了一种改进方法,传统的tf-idf方法无法反映词汇的重要程度和特征词的分布情况,改进的tf-idf加入了类别中包含词汇的文本数及词汇出现在某一类文本中的次数,改进后的tf-idf可以很明了地区分出特征项的重要程度;2.为了降维特征向量空间,本文针对特征选择方法中互信息方法提出了一种改进方法,改进后的互信息有效的解决了受特征词条的边缘分布的影响导致稀有词的值偏大这个问题,从一定程度上解决了“过度拟合”问题;3.在降低特征向量空间维数方法上,本文引入了测量学上的区分度方法,一种特征选择区分度方法-比例区分度(CPD)算法,CPD算法可以反映了词出现在某个类和其他类中的文本数,通过结合改进的tf-idf权重公式可以选取出更具有代表性的特征项,有利于文本分类;4.本文设计了一个中文文本分类系统,该系统由预处理、特征选择、文本表示、文本分类及评价五个部分组成。预处理是对训练集文本进行分词,过滤停用词、数字等;特征选择部分采用了文档频率、互信息、卡方统计和改进的互信息、比例区分度几种方法进行比较,并结合改进的tf-idf方法计算特征项在文本中的权重;分类部分则是利用SVM分类器进行分类。5.本文所有的实验都是以中文文本分类语料库-TanCorpvl.0为实验数据,利用汉语分词系统ICTCLAS对文本进行分词,性能评估方法使用的是文本分类常用的微平均和宏平均。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究文本自动分类的背景和意义
  • 1.2 国内外研究现状综述
  • 1.2.1 特征选择算法的研究现状
  • 1.2.2 文本自动分类的研究现状
  • 1.3 本文的研究目标和主要内容
  • 1.4 本文组织结构
  • 第2章 文本分类研究综述
  • 2.1 文本分类基本概念
  • 2.1.1 文本分类的定义
  • 2.1.2 文本分类的流程
  • 2.2 文本表示综述
  • 2.2.1 向量空间模型(VSM)
  • 2.2.1.1 tf-idf 权重
  • 2.2.1.2 词频权重(TF)
  • 2.2.1.3 熵权重
  • 2.2.2 布尔模型
  • 2.2.3 概率模型
  • 2.3 特征选择算法研究综述
  • 2.3.1 文档频率方法(DF)
  • 2.3.2 信息增益方法(Information Gain,IG)
  • 2.3.3 卡方统计量方法(CHI-square)
  • 2.3.4 期望交叉熵(Expected Cross Entropy,ECE)
  • 2.4 文本分类算法研究综述
  • 2.4.1 基于实例的KNN 分类算法
  • 2.4.2 基于Rocchio 的分类算法
  • 2.4.3 基于统计的贝叶斯分类算法
  • 2.4.4 基于决策树的分类算法
  • 2.4.5 基于神经网络的分类算法
  • 2.4.6 基于支持向量机的分类算法
  • 2.5 本章小结
  • 第3章 基于 tf-idf 的改进互信息算法和比例区分度 CPD 算法
  • 3.1 改进的 tf-idf 权重方法
  • 3.2 传统的互信息算法
  • 3.3 基于互信息的特征选择方法研究
  • 3.3.1 改进的互信息的特征选择算法
  • 3.3.2 结合改进的 tf-idf 的 DMI 算法的文本分类方法
  • 3.4 基于比例区分度(CPD)的特征选择算法
  • 3.5 本章小结
  • 第4章 基于VSM 的中文文本分类系统的设计
  • 4.1 系统设计目标
  • 4.2 文本分类系统框架
  • 4.3 中文文本预处理
  • 4.4 特征选择
  • 4.5 文本分类
  • 4.6 文本分类器的评价
  • 4.6.1 精确率(Precision)和召回率(Recall)
  • 4.6.2 微平均和宏平均
  • 4.7 本章小结
  • 第5章 中文文本分类实验测试及结果分析
  • 5.1 实验环境和实验目的
  • 5.2 实验语料
  • 5.3 实验结果及结果分析
  • 5.3.1 基于VSM 模型的DMI 算法的实验结果分析
  • 5.3.2 基于VSM 模型的CPD 的实验结果分析
  • 5.3.3 tf-idf 和改进后的tf-idf 的实验结果分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 附录
  • 致谢
  • 在读期间公开发表论文(著)及科研情况
  • 相关论文文献

    • [1].斯坦福特·贝尔活系统模型(VSM)的系统哲学基本原理[J]. 齐齐哈尔大学学报(哲学社会科学版) 2017(09)
    • [2].基于VSM的网络问政管理机制研究[J]. 电子政务 2016(05)
    • [3].基于发布/订阅VSM中间件的设计与实现[J]. 科学技术与工程 2011(33)
    • [4].基于VSM的潜在语义索引[J]. 陕西科技大学学报(自然科学版) 2010(05)
    • [5].基于VSM的美国一流大学图书馆网站导航文本调查与分析[J]. 数据分析与知识发现 2017(03)
    • [6].基于一种改进的VSM的用户模型表示方法[J]. 福建电脑 2009(03)
    • [7].一种改进的基于VSM的垂直搜索检索模型[J]. 情报杂志 2009(01)
    • [8].基于VSM模型的高校图书馆组织架构研究[J]. 人力资源管理 2015(10)
    • [9].基于VSM的分布仿真软件适配器研究[J]. 测控技术 2008(09)
    • [10].基于VSM的仓储中心选址模型研究[J]. 重庆工商大学学报(自然科学版) 2015(03)
    • [11].基于VSM的仓储中心价格变动经济效益分析[J]. 物流技术 2015(06)
    • [12].一种基于VSM的中文网页分类方法[J]. 信息化纵横 2009(17)
    • [13].VSM信息检索中的数据稀疏问题分析与规避策略[J]. 图书情报工作 2013(01)
    • [14].扩展的VSM图书馆读者兴趣建模技术研究[J]. 图书情报工作 2012(05)
    • [15].基于VSM和TOC的汽车涂装生产系统改善[J]. 物流技术 2016(10)
    • [16].基于VSM模型的Presentation教学过程诊断与改进[J]. 教育教学论坛 2015(26)
    • [17].基于本体与VSM的导弹产品研发知识分类方法研究[J]. 战术导弹技术 2015(01)
    • [18].一种基于模糊VSM和神经网络的文本分类方法[J]. 科学技术与工程 2011(09)
    • [19].基于VSM的自适应信息过滤系统的研究与设计[J]. 计算机时代 2009(11)
    • [20].基于IKAnalyzer及VSM的人大代表议案建议相似度计算[J]. 信息通信 2016(08)
    • [21].基于VSM模型和数据库技术的文本相似度检查软件研究与实现[J]. 网络安全技术与应用 2014(08)
    • [22].融合VSM技术的PageRank算法研究与应用[J]. 计算机与现代化 2011(07)
    • [23].基于分布式倒排索引和VSM算法的P2P复杂搜索[J]. 计算机技术与发展 2009(04)
    • [24].基于VSM模型的移动互联网用户兴趣度挖掘分析和应用[J]. 电信技术 2018(02)
    • [25].基于VSM的农机作业精益管理模式研究[J]. 广东农业科学 2014(11)
    • [26].基于VSM的高校基建合作网络分类及其结构形态分析[J]. 工程管理学报 2020(04)
    • [27].基于分层VSM的虚拟场景阴影渲染算法研究与实现[J]. 电子科学技术 2016(06)
    • [28].基于VSM的文件密级检测系统设计与实现[J]. 软件导刊 2017(03)
    • [29].基于简化MD5的TFIDF算法[J]. 科学技术与工程 2012(31)
    • [30].信息检索加权理论与技术:基于VSM模型的分析[J]. 情报杂志 2008(06)

    标签:;  ;  ;  ;  ;  

    基于VSM模型和特征选择算法的中文文本自动分类研究
    下载Doc文档

    猜你喜欢