中文文本自动分类算法研究

中文文本自动分类算法研究

论文摘要

随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出多种有效的解决或改进的方法和技术。较系统地综述了中文文本分类中自动分词技术、特征提取技术、文本分类模型和性能评估技术的研究现状和研究方法。较全面地讨论了贝叶斯方法、k近邻方法和AdaBoost等三种中文文本分类方法。作者采用三个模型,实现了朴素贝叶斯分类器、k近邻分类器和Adaboost分类器三个中文文本分类器,集成了一个实用性较强的实验系统。文中深入地分析了k近邻方法的不足,提出了改进的k近邻方法,有基于隐含语义,特征聚合,强化文本中语义链属性因子与检索相结合的迭代近邻法四种方法进行改进,提高了分类器的性能。重点讨论了AdaBoost的相关问题。概述了boost理论的主要内容和应用情况。Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。实验表明,三种分类器都适合于中文文本分类的需要,其中Adaboost分类器的分类性能最好。而朴素贝叶斯的简单快速,k近邻方法性能适中同样适用于中文文本分类的需要。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.2.1 信息组织
  • 1.2.2 信息过滤
  • 1.2.3 话题识别与跟踪
  • 1.3 研究现状
  • 1.3.1 国内外研究现状
  • 1.3.2 当前研究重点
  • 1.4 本文研究内容
  • 第二章 文本分类基础理论和系统架构
  • 2.1 文本分类基本概念
  • 2.2 自动分词
  • 2.2.1 自动分词方法
  • 2.2.2 分词中的难题
  • 2.3 文本表示
  • 2.3.1 向量空间模型
  • 2.3.2 权值计算公式
  • 2.3.3 相似度计算公式
  • 2.4 特征提取
  • 2.4.1 特征词的文档频率(DF)
  • 2.4.2 信息增益方法(IG)
  • 2.4.3 互信息方法
  • 2 统计量(CHI)'>2.4.4 χ2统计量(CHI)
  • 2.5 文本自动分类方法
  • 2.6 评价指标
  • 2.6.1 召回率和准确率
  • 2.6.2 微平均和宏平均
  • 2.7 本章小结
  • 第三章 贝叶斯文本分类器
  • 3.1 贝叶斯理论概况
  • 3.1.1 贝叶斯定理
  • 3.1.2 极大后验假设和极大似然假设
  • 3.2 朴素贝叶斯分类
  • 3.3 TAN 树扩展的朴素贝叶斯分类器
  • 3.4 贝叶斯网络分类器
  • 3.4.1 贝叶斯网络的优点
  • 3.4.2 贝叶斯网络的缺点
  • 3.5 本章小结
  • 第四章 KNN 文本分类算法
  • 4.1 KNN 分类器
  • 4.2 改进的KNN 分类器
  • 4.2.1 强化语义链属性因子的改进KNN 算法
  • 4.2.2 应用特征聚合进行的改进KNN 算法
  • 4.2.3 与自动检索结合的迭代近邻法
  • 4.2.4 基于隐含语义的KNN 文本分类
  • 4.3 本章小结
  • 第五章 ADABOOST 分类算法
  • 5.1 理论知识
  • 5.1.1 集成学习简介
  • 5.1.2 弱可学习理论
  • 5.1.3 AdaBoost
  • 5.1.4 一般的集成学习
  • 5.1.5 总结
  • 5.2 BOOSTING 和BAGGING 综述
  • 5.2.1 引言
  • 5.2.2 算法描述
  • 5.2.3 理论分析
  • 5.2.4 应用
  • 5.3 基于BOOSTING 机制的NAIVE BAYESIAN 文本分类器
  • 5.3.1 引言
  • 5.3.2 三种破坏Naive Bayesian 学习器稳定性的方法
  • 5.3.3 算法描述
  • 5.4 本章小结
  • 第六章 系统设计与性能分析
  • 6.1 实验语料库及词典的构建
  • 6.1.1 训练集和测试集
  • 6.1.2 语料库的选取
  • 6.1.3 词典的选取
  • 6.2 BOOST 实验结果分析
  • 6.3 KNN 分类器和朴素贝叶斯分类器的结果分析
  • 6.3.1 特征选择与权值调整的比较
  • 6.3.2 词频型公式与文档频数型公式的优劣
  • 6.4 本章小结
  • 第七章 总结与展望
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 相关论文文献

    • [1].基于动态分类器集成系统的卷烟感官质量预测方法[J]. 计算机应用与软件 2020(01)
    • [2].基于标准数据集的分类器融合学习模型[J]. 微型电脑应用 2020(04)
    • [3].一种自适应子融合集成多分类器方法[J]. 计算机测量与控制 2019(04)
    • [4].基于多分类器融合的近红外光谱技术鉴别蜂蜜品种[J]. 化学分析计量 2019(03)
    • [5].基于分类器的身份证号码识别研究[J]. 贵州科学 2018(01)
    • [6].一种基于多分类器融合的人体运动行为识别模型[J]. 计算机科学 2016(12)
    • [7].一种基于混淆矩阵的分类器选择方法[J]. 河南理工大学学报(自然科学版) 2017(02)
    • [8].一种代价敏感的三类分类器评估方法的研究与应用[J]. 通化师范学院学报 2017(08)
    • [9].基于多分类器组合的遥感土地利用分类研究[J]. 安徽农业科学 2015(32)
    • [10].多分类器融合与单分类器影像分类比较研究[J]. 矿山测量 2016(04)
    • [11].《未来垃圾分类器》[J]. 幼儿教育 2020(14)
    • [12].基于多分类器组合的城市不透水面提取研究[J]. 城市地理 2017(04)
    • [13].《垃圾分类器》[J]. 辅导员 2016(11)
    • [14].多分类器融合的遥感影像分类方法实验研究[J]. 全球定位系统 2020(05)
    • [15].一种基于核聚类的多分类器选择算法[J]. 电子技术与软件工程 2020(13)
    • [16].基于一种新的级联分类器的目标检测系统[J]. 现代电子技术 2020(01)
    • [17].最佳的分类器链局部检测与挖掘算法[J]. 计算机工程与设计 2017(11)
    • [18].基于多分类器融合与模糊综合评判的滚动轴承故障诊断[J]. 中国科技论文 2016(04)
    • [19].近红外光谱和多分类器融合的葡萄酒品种判别研究[J]. 光谱学与光谱分析 2016(11)
    • [20].基于多分类器集成的语音情感识别[J]. 微电子学与计算机 2015(07)
    • [21].基于集成分类器的流量识别技术研究[J]. 科技视界 2015(33)
    • [22].二叉树型多分类器融合的轴承故障诊断方法[J]. 计算机工程与应用 2015(21)
    • [23].智能垃圾分类器[J]. 科学启蒙 2013(12)
    • [24].一种新的多分类器融合方法[J]. 西南师范大学学报(自然科学版) 2014(01)
    • [25].动态加权投票的多分类器聚合[J]. 现代计算机(专业版) 2014(05)
    • [26].面向用户观点分析的多分类器集成和优化技术[J]. 计算机学报 2013(08)
    • [27].基于证据理论的优化集成分类器融合算法及应用[J]. 化工学报 2012(09)
    • [28].多类不平衡数据上的分类器性能比较研究[J]. 计算机工程 2011(10)
    • [29].基于多分类器融合的语音识别方法研究[J]. 重庆邮电大学学报(自然科学版) 2011(04)
    • [30].基于粗糙集约简的多分类器系统构造方法[J]. 计算机工程与应用 2010(03)

    标签:;  ;  ;  ;  ;  

    中文文本自动分类算法研究
    下载Doc文档

    猜你喜欢