基于最优分割策略的高性能文本分类方法

基于最优分割策略的高性能文本分类方法

论文摘要

进入九十年代以来,互联网得到了极大的发展,产生了海量的非结构化和半结构化文本信息。如何对之进行有效的组织和管理,使用户能方便、准确地查找到所需要的信息,是信息处理的一大目标。基于人工智能技术的自动文本分类已成为信息处理的关键技术,它能根据文本的语义将大量的文本自动分类,有效地解决有关文本信息的组织、管理等关键问题。文本分类的方法很多,典型的有朴素贝叶斯分类器、基于向量空间模型的分类器、基于实例的分类器和用支持向量机建立的分类器等,樊兴华教授等近年来提出了一种基于两步策略的高性能文本分类方法,该方法基于文本模糊区间和文本分割线,但是,该方法还没有深入解决如下问题:①理论上的文本分割线是否就是最优的文本分割线呢?②如果不是,能否设计一种算法或者利用某一经典的算法来寻求最优文本分割线呢?本文提出了一种基于最优分割策略的文本分类方法,该方法将朴素贝叶斯分类器变换为在二维空间中的一条分割线,在分割线临近的文本分类不可靠区间内,利用最优分割线搜索算法寻求最优文本分割线,从而使分类器达到最佳性能。在由12600篇文本构成的中文语料数据集上的实验结果表明,该方法具有较高的分类性能和效率,精确率、召回率和F1-measure值分别达到97.98%,91.05%和94.39%。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 文本分类概述
  • 1.2 国内外研究现状
  • 1.3 论文主要工作
  • 1.4 论文组织结构
  • 第二章 文本分类技术
  • 2.1 文本分类的一般过程
  • 2.2 文本特征抽取
  • 2.3 文本特征选择
  • 2.3.1 文档频率
  • 2.3.2 互信息
  • 2.3.3 信息增益
  • 2 统计量(Chi)'>2.3.4 χ2统计量(Chi)
  • 2.3.5 NGL 系数(NGL coefficient)
  • 2.3.6 GSS 系数
  • 2.3.7 各种特征选择方式的性能分析
  • 2.4 文本分类器
  • 2.4.1 贝叶斯分类器
  • 2.4.2 KNN 分类器
  • 2.4.3 支持向量机
  • 2.4.4 Rocchio 方法
  • 2.4.5 决策树
  • 2.4.6 集成分类方法
  • 2.4.7 两步文本分类方法
  • 2.4.8 文本分类方法分析
  • 2.5 评估指标
  • 2.5.1 二分类问题
  • 2.5.2 多分类问题
  • 2.6 小结
  • 第三章 基于最优分割策略的高性能文本分类方法
  • 3.1 最优分割策略
  • 3.2 文本二维空间构造
  • 3.3 错误分类的文本观察
  • 3.4 最优朴素贝叶斯分类模型
  • 3.5 最优分割直线搜索算法
  • 3.5.1 利用旋转平移算法搜索最优分割线
  • 3.5.2 利用遗传算法搜索最优分割线
  • 3.6 实验测试
  • 3.6.1 实验数据集
  • 3.6.2 特征选择
  • 3.6.3 文本模糊区间确定
  • 3.6.4 实验结果与分析
  • 3.7 小结
  • 第四章 文本分类系统概述
  • 4.1 系统模块
  • 4.2 工作流程
  • 4.3 实验测试
  • 4.3.1 测试环境
  • 4.3.2 测试结果与分析
  • 4.4 小结
  • 第五章 结论及未来工作
  • 5.1 论文工作总结
  • 5.2 后续工作展望
  • 致谢
  • 攻读硕士学位期间的学术成果
  • 参考文献
  • 相关论文文献

    • [1].基于自身特征扩展的短文本分类方法[J]. 计算机应用研究 2017(04)
    • [2].利用类-项权重和类-项密度的文本分类方法[J]. 计算机工程与设计 2017(08)
    • [3].基于卷积神经网络的配电网缺陷文本分类方法[J]. 信息技术 2020(06)
    • [4].基于深度学习的录音文本分类方法[J]. 浙江大学学报(工学版) 2020(07)
    • [5].基于BiLSTM-Attention-CNN混合神经网络的文本分类方法[J]. 计算机应用与软件 2020(09)
    • [6].一种多特征融合的长文本分类方法[J]. 中国电子科学研究院学报 2020(09)
    • [7].基于注意机制的短文本分类方法[J]. 电脑知识与技术 2020(28)
    • [8].网络的简监督文本分类方法[J]. 计算机与网络 2012(17)
    • [9].基于机器学习的文本分类方法综述[J]. 渤海大学学报(自然科学版) 2010(02)
    • [10].增强领域特征的电力审计文本分类方法[J]. 计算机应用 2020(S1)
    • [11].一种结合云模型的文本分类方法[J]. 计算机工程与应用 2014(15)
    • [12].基于重要事件的文本分类方法研究[J]. 微电子学与计算机 2012(03)
    • [13].新的基于簇划分文本分类方法[J]. 计算机工程与设计 2009(06)
    • [14].独立于语种的文本分类方法[J]. 计算机工程与科学 2008(06)
    • [15].基于字词特征自注意力学习的社交媒体文本分类方法[J]. 模式识别与人工智能 2020(04)
    • [16].一种基于情感特征的短文本分类方法[J]. 计算机与现代化 2020(07)
    • [17].基于卷积神经网络的互联网短文本分类方法[J]. 计算机与现代化 2017(04)
    • [18].一种基于半监督学习的短文本分类方法[J]. 现代图书情报技术 2013(02)
    • [19].一种基于嵌入式注意力机制的文本分类方法[J]. 软件 2020(06)
    • [20].基于语义距离的文本分类方法[J]. 计算机技术与发展 2013(01)
    • [21].基于商空间的向量空间模型文本分类方法[J]. 计算机应用 2011(S2)
    • [22].高效的信任机制线性文本分类方法[J]. 计算机工程与设计 2010(10)
    • [23].一种基于特征扩展的中文短文本分类方法[J]. 计算机应用 2009(03)
    • [24].中文文本分类方法综述[J]. 网络与信息安全学报 2019(05)
    • [25].融合词语类别特征和语义的短文本分类方法[J]. 计算机工程与科学 2017(02)
    • [26].基于迁移学习的实时多类别文本分类方法研究[J]. 四川文理学院学报 2015(02)
    • [27].文本分类方法在网络舆情分析系统中的应用研究[J]. 情报科学 2015(05)
    • [28].基于融合特征的商品文本分类方法研究[J]. 情报理论与实践 2020(11)
    • [29].一种舆情分析中的文本分类方法[J]. 信息技术 2013(03)
    • [30].一种基于特征投票的文本分类方法[J]. 计算机工程 2010(09)

    标签:;  ;  ;  ;  ;  

    基于最优分割策略的高性能文本分类方法
    下载Doc文档

    猜你喜欢