论文摘要
真实世界的数据往往是高维的。因为高维而难于被人理解、表示和处理。其处理面临两个问题:一是维数灾难问题,维数膨胀给高维数据中模式识别和规则发现带来极大挑战;二是维数的增长又带来“维数福音”,高维数据中蕴藏的丰富信息中可产生解决问题的新的可能性。如何将高维数据表示在低维空间中,并由此发现其内在结构是高维信息处理研究的关键问题之一。文本分类也面临着同样的问题,特征空间的维数高达几万,甚至远远超过训练样本的数目。然而,过大的特征空间会导致样本统计特性的评估变得更加困难,从而降低分类器的泛化能力,出现“过学习”的现象,因此从原始特征集中如何选取最具有代表性的特征是十分必要的。有效的降低维数可以提高分类任务的效率和分类性能。本文重点研究局部线性嵌入算法(LLE)的降维过程,将它应用在文本分类中。文本以向量空间模型的形式表示,经过特征提取后得到较低维的数据集,再利用LLE算法进行降维使之维数进一步减少。用训练文本数据集进行训练,以获得分类器,再用分类器对测试文本进行测试分类,分类器采用支持向量机分类器。局部线性嵌入算法,它不需要进行迭代运算,只有2个参数需要设置,而参数取值的客观算法又常不多见,尤其是数据空间的特征维数估计更是模式识别中的一个待解决问题,所以本文通过多次实验比较了LLE降维过程中当2个参数即邻近点个数k和低维维数d取不同值时分类精度的变化,以获得最佳的降维效果。
论文目录
摘要ABSTRACT第一章 绪论§1-1 课题的研究背景§1-2 文本分类概述§1-3 本文结构第二章 降维方法介绍§2-1 降维中的概念2-1-1 数据集空间及数据集结构的数学描述2-1-2 维数灾难2-1-3 降维的定义2-1-4 特征维数§2-2 高维空间的特殊性2-2-1 高维超球的体积集中在外壳上2-2-2 正态分布的胖尾现象§2-3 降维问题的分类和在不同领域中的表现2-3-1 降维问题的分类2-3-2 降维在不同领域中的表现§2-4 几种不同的降维方法2-4-1 主成分分析法(PCA)2-4-2 等距映射算法Isomap2-4-3 自组织等距嵌入SIE2-4-4 Laplacian Eigenmap方法2-4-5 有监督的LLE (SLLE)2-4-6 几种降维算法的比较§2-5 基于离散数据集合的降维第三章 文本分类方法的研究§3-1 中文文本的表示方法3-1-1 向量空间模型3-1-2 概率模型3-1-3 潜在语义索引模型§3-2 分词技术3-2-1 机械分词方法3-2-2 统计分词方法3-2-3 基于理解的分词方法§3-3 特征选择算法3-3-1 互信息(Mutual Information)2统计'>3-3-2 χ2统计3-3-3 期望交叉熵(Cross Entropy)3-3-4 文本证据权(The Weight of Evidence For Text)3-3-5 文档频率(Document Frequency)3-3-6 信息增益(Information Gain)§3-4 特征权重算法3-4-1 布尔权重3-4-2 词频权重3-4-3 TFIDF权重§3-5 基于统计方法的分类算法3-5-1 朴素贝叶斯算法3-5-2 K近邻算法(KNN)3-5-3 支持向量机分类算法(SVM)第四章 局部线性嵌入法的研究§4-1 局部线性嵌入法的原理4-1-1 局部线性嵌入降维方法的基本过程4-1-2 数据集合的自通近度和可分离度4-1-3 邻点数K的选取4-1-4 本征维数d的确定4-1-5 基本思想和算法§4-2 LLE算法的应用4-2-1 LLE算法的应用实例第五章 LLE在文本分类中的应用§5-1 文本数据的预处理5-1-1 训练集和测试集5-1-2 向量特征空间的建立§5-2 实验环境§5-3 评价指标和准则§5-4 实验数据的空间向量模型第六章 结论§6-1 论文完成的主要工作§6-2 研究工作展望参考文献致谢
相关论文文献
标签:局部线性嵌入论文; 文本分类论文; 特征维数论文; 向量空间论文;