基于机器学习的文本分类算法研究

论文摘要

随着计算机技术、数据库技术、网络技术的飞速发展和Internet的日益普及，在现实生活中，每一个领域都不断产生海量数据和信息，特别是海量的文本数据。如何自动将这些文本数据进行分类整理，挖掘出有效信息，给人们有效利用，成为一个日趋重要的问题。因此，文本数据挖掘作为一门新兴学科，逐渐成为了一门引人注目、发展迅速的领域。文本分类是文本数据挖掘中的一个基本技术，其作用是根据文本的各项特征判断其所属的预先设计的类别。它在自然语言处理与理解、信息组织与管理、内容信息过滤等领域具有非常广泛的应用。早期的文本分类采用的是基于知识工程和专家系统的方法，可是这样的方法非常复杂和缺乏灵活性。随着机器学习的兴起和发展，很多机器学习的分类器模型被引入的文本分类领域中，从不同的方面取得了不错的效果。目前，各种文本分类算法都在一定的领域里有好的效果，但都不能成为通用方法，因此，如何对现有的文本分类算法进行评估也是一个非常重要的问题。分类的精度是已经被广泛用于评估文本分类算法性能的主要度量标准之一，但是，当要处理的类分布不均匀或者分类出错的代价不相同时，精度的局限性就显示出来了。在这种情况下，AUC被提出作为一个新的评估文本分类算法性能的度量标准。已有研究表明，AUC比精度的健壮性要好，而且有它特有的排序评测功能。这样，原有的分类算法在新的评估标准下是否和原来一样有效，是一个值得关注的问题。由于新的标准的提出，目前还没有完整的实验对原有文本分类算法进行评测。本文将采用统一的文本基准集，重新对支持向量机，决策树，最近邻，朴素贝叶斯几个主流的文本分类算法进行实验比较，主要工作有：一是介绍和分析了几种主流的文本分类算法的基本原理；二是介绍了一种新的文本分类器评估标准，分析了它的评测原理以及和原有评估标准的比较；三是设计了详细的实验对几种主流文本分类算法进行测评，指出它们在新标准下的不足和今后需要改进的方向。

论文目录

摘要

Abstract

第一章绪论

1.1 课题研究背景及意义

1.2 国内外研究现状和发展

1.2.1 文本分类研究进展

1.2.2 分类评估标准

1.3 本文的主要工作和组织结构

1.3.1 本文的主要工作

1.3.2 本文的组织结构

第二章文本分类

2.1 文本分类算法概述

2.2 文本表述和特征选择

2.2.1 文本表述

2.2.2 特征选择

2.3 主流文本分类算法

2.3.1 支持向量机（Support Vector Machine，SVM）

2.3.2 k最近邻算法（k Nearest Neighbor，kNN）

2.3.3 决策树算法

2.3.4 朴素贝叶斯算法（Naive Bayes，NB）

第三章文本分类的评估标准

3.1 常用评估标准

3.2 受试者工作特征曲线（Receive Operating Characteristic Curve，ROC曲线）

3.3 ROC曲线下的区域（The Area Under the ROC Curve，AUC）

3.4 预测精度与AUC

第四章文本分类算法比较实验

4.1 实验设计

4.1.1 设计动机

4.1.2 算法选择

4.2 实验配置

4.2.1 实验环境

4.2.2 数据集

4.3 实验数据及分析

4.3.1 精度分析

4.3.2 AUC分析

4.3.3 大容量数据集下的比较

4.4 结论

第五章总结与展望

5.1 工作总结

5.2 工作展望

参考文献

致谢

攻读硕士学位期间发表的学术论文

基于机器学习的文本分类算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢