
论文摘要
随着来自于互联网和企业内部网的信息不断增多,需要一种工具来帮助人们对这些信息资源进行组织、存储和访问。自动文本分类是主要工具之一。文本分类(Text Classification, TC)就是将文档自动指派到预先设定类别的过程。自动文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地得到所需的信息。文本分类的一个主要的问题就是高维的特征空间。这些特征空间是由文档中的词或词组构成的,对于一个中等程度的文档集可能就会形成成百上千万的特征项。对于许多的学习算法来说这么高维的特征项是无法处理的,过大的特征空间会导致“维数灾难”,从而降低分类器的泛化能力,出现“过学习”的现象。因而在不影响特征准确度的情况下减少原来的文本描述空间是很有必要的。特征选择与特征抽取有助于在文本数据集中移除噪音特征,降低维数。特征抽取是将原始特征空间投影到一个低维空间从而创造出新的特征,通常是原始特征的线性或非线性组合。特征抽取有助于解决多义词、同义词问题,但是不能给出新特征的语义解释。特征选择是利用某种评价函数独立地对每个原始特征项打分,按分值从高到低排序,从中选取若干分值最高的特征项。特征选择方法的主要目的是在原始的特征空间中选择一个特征子集,组成一个低维空间来表示原始特征空间。我们将Efron的Least angle regression(最小角度回归)方法和Regularized Least Squares(规则最小二乘)方法相结合,提出了规则最小二乘多角度回归(RLS-MARS)算法。该方法试图在特征空间中,寻找一组方向,使得特征梯度矩阵能沿着这一方向变化,且特征梯度矩阵的模值越来越小,在这一过程中,生成了一系列有序特征。新模型中特征选择方法主要考虑了潜在变量之间(文本词之间)的关系,试图从原始特征集合中选取有效显著特征。这些被选出来的特征之间的相关性很小,且与原始特征同分布。通过RLS-MARS特征选择技术,来提取核心特征是在多维空间中按照特征的特性,设计算法在多角度中计算出相对最小角度,选出梯度下降方向,重新设置梯度向量,从而提取到核心特征。RLS-MARS特征选择技术,主要是研究在低维数情况下特征选择的情况,在多个向量夹角中选出当前情况下的最小角度,从而得到当前梯度向量的梯度下降方向,更新梯度向量值,选出函数拟合变量,从而筛选出合理的特征。我们的模型分别考察了类别不均衡与类别均衡情况下,参数二范数规范和参数二范数忽略,各个数据集中各类的F1评估值情况。在Reuter-21578语料库上的试验表明,RLS-MARS特征选择方法在考虑参数二范数规范的结果要比参数二范数忽略情况下的要好很多。随着维数的增加,RLS-MARS的分类效果在某些类别上要优于卡方统计。
论文目录
摘要ABSTRACT1 引言1.1 研究背景1.2 本文工作1.3 论文组织2 文本分类概述2.1 文本分类的定义2.2 文本分类的任务2.3 文本分类系统的流程2.4 文本预处理2.4.1 去除语料库的格式标记2.4.2 去除停用词和词干化2.4.3 中文分词2.5 文本表示方法2.5.1 布尔权重2.5.2 词频权重2.5.3 tf-idf 权重2.5.4 tfc 权重2.5.5 ltc 权重2.5.6 熵权重2.6 文本分类算法2.6.1 Rocchio 算法2.6.2 Na(?)ve Bayes 算法2.6.3 KNN 算法2.6.4 决策树2.6.5 神经网络2.6.6 支持向量机2.6.7 回归模型2.7 文本分类器的测试和评价2.7.1 文本分类器的测试2.7.2 文本分类器的评价3 维数约减3.1 维数约减技术3.2 特征选择3.2.1 文档频数(Document Frequency, DF)3.2.2 互信息(Mutual Information, MI)2 统计量(CHI-Squared)'>3.2.3 χ2统计量(CHI-Squared)3.2.4 信息增益(Information Gain, IG)3.2.5 期望交叉熵(Expected Cross Entropy, ECE)3.2.6 文本证据权(The Weight Of Evidence for Text)3.2.7 几率比(Odds Ratio, OR)3.3 特征提取3.3.1 潜在语义索引(Latent Semantic Index, LSI)3.3.2 非负矩阵分解(Non-negative Matrix Factorization, NMF)3.3.3 主成分分析(Principal Component Analysis, PCA)4 基于RLS-MARS 的特征选择4.1 基本符号表示4.2 线性回归模型4.3 最小二乘参数估计(LEAST SQUARES ESTIMATE)4.4 逻辑斯特回归分析(LOGISTIC)4.5 规则最小二乘分类算法(RLS)4.6 最小角度回归收缩(LARS)4.7 规则最小二乘多角度回归收缩4.8 算法复杂度分析5 实验5.1 Reuters-21578 语料库5.2 预处理5.3 在类别不均衡下的实验结果5.3.1 实验设计5.3.2 实验结果及分析5.3.2.1 特征维数对性能的影响2 = 0)与二范数规范(λ2 = 100)实验结果比较及分析'>5.3.2.2 二范数忽略(λ2 = 0)与二范数规范(λ2 = 100)实验结果比较及分析2 特征选择实验结果比较及分析'>5.3.2.3 RLS-MARS 算法与χ2特征选择实验结果比较及分析5.4 在类别均衡下的实验结果5.4.1 实验设计5.4.2 实验结果及分析5.4.2.1 特征维数对性能的影响2 = 0)与二范数规范(λ2 = 100)实验结果比较及分析'>5.4.2.2 二范数忽略(λ2 = 0)与二范数规范(λ2 = 100)实验结果比较及分析2 特征选择实验结果比较及分析'>5.4.2.3 RLS-MARS 算法与χ2特征选择实验结果比较及分析5.5 实验小结6 总结与展望6.1 总结6.2 展望参考文献致谢
相关论文文献
标签:文本分类论文; 特征选择论文; 规则最小二乘论文; 最小角度回归论文; 规则最小二乘多角度回归论文;