局部线性嵌入在文本分类中的应用

局部线性嵌入在文本分类中的应用

论文摘要

真实世界的数据往往是高维的。因为高维而难于被人理解、表示和处理。其处理面临两个问题:一是维数灾难问题,维数膨胀给高维数据中模式识别和规则发现带来极大挑战;二是维数的增长又带来“维数福音”,高维数据中蕴藏的丰富信息中可产生解决问题的新的可能性。如何将高维数据表示在低维空间中,并由此发现其内在结构是高维信息处理研究的关键问题之一。文本分类也面临着同样的问题,特征空间的维数高达几万,甚至远远超过训练样本的数目。然而,过大的特征空间会导致样本统计特性的评估变得更加困难,从而降低分类器的泛化能力,出现“过学习”的现象,因此从原始特征集中如何选取最具有代表性的特征是十分必要的。有效的降低维数可以提高分类任务的效率和分类性能。本文重点研究局部线性嵌入算法(LLE)的降维过程,将它应用在文本分类中。文本以向量空间模型的形式表示,经过特征提取后得到较低维的数据集,再利用LLE算法进行降维使之维数进一步减少。用训练文本数据集进行训练,以获得分类器,再用分类器对测试文本进行测试分类,分类器采用支持向量机分类器。局部线性嵌入算法,它不需要进行迭代运算,只有2个参数需要设置,而参数取值的客观算法又常不多见,尤其是数据空间的特征维数估计更是模式识别中的一个待解决问题,所以本文通过多次实验比较了LLE降维过程中当2个参数即邻近点个数k和低维维数d取不同值时分类精度的变化,以获得最佳的降维效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • §1-1 课题的研究背景
  • §1-2 文本分类概述
  • §1-3 本文结构
  • 第二章 降维方法介绍
  • §2-1 降维中的概念
  • 2-1-1 数据集空间及数据集结构的数学描述
  • 2-1-2 维数灾难
  • 2-1-3 降维的定义
  • 2-1-4 特征维数
  • §2-2 高维空间的特殊性
  • 2-2-1 高维超球的体积集中在外壳上
  • 2-2-2 正态分布的胖尾现象
  • §2-3 降维问题的分类和在不同领域中的表现
  • 2-3-1 降维问题的分类
  • 2-3-2 降维在不同领域中的表现
  • §2-4 几种不同的降维方法
  • 2-4-1 主成分分析法(PCA)
  • 2-4-2 等距映射算法Isomap
  • 2-4-3 自组织等距嵌入SIE
  • 2-4-4 Laplacian Eigenmap方法
  • 2-4-5 有监督的LLE (SLLE)
  • 2-4-6 几种降维算法的比较
  • §2-5 基于离散数据集合的降维
  • 第三章 文本分类方法的研究
  • §3-1 中文文本的表示方法
  • 3-1-1 向量空间模型
  • 3-1-2 概率模型
  • 3-1-3 潜在语义索引模型
  • §3-2 分词技术
  • 3-2-1 机械分词方法
  • 3-2-2 统计分词方法
  • 3-2-3 基于理解的分词方法
  • §3-3 特征选择算法
  • 3-3-1 互信息(Mutual Information)
  • 2统计'>3-3-2 χ2统计
  • 3-3-3 期望交叉熵(Cross Entropy)
  • 3-3-4 文本证据权(The Weight of Evidence For Text)
  • 3-3-5 文档频率(Document Frequency)
  • 3-3-6 信息增益(Information Gain)
  • §3-4 特征权重算法
  • 3-4-1 布尔权重
  • 3-4-2 词频权重
  • 3-4-3 TFIDF权重
  • §3-5 基于统计方法的分类算法
  • 3-5-1 朴素贝叶斯算法
  • 3-5-2 K近邻算法(KNN)
  • 3-5-3 支持向量机分类算法(SVM)
  • 第四章 局部线性嵌入法的研究
  • §4-1 局部线性嵌入法的原理
  • 4-1-1 局部线性嵌入降维方法的基本过程
  • 4-1-2 数据集合的自通近度和可分离度
  • 4-1-3 邻点数K的选取
  • 4-1-4 本征维数d的确定
  • 4-1-5 基本思想和算法
  • §4-2 LLE算法的应用
  • 4-2-1 LLE算法的应用实例
  • 第五章 LLE在文本分类中的应用
  • §5-1 文本数据的预处理
  • 5-1-1 训练集和测试集
  • 5-1-2 向量特征空间的建立
  • §5-2 实验环境
  • §5-3 评价指标和准则
  • §5-4 实验数据的空间向量模型
  • 第六章 结论
  • §6-1 论文完成的主要工作
  • §6-2 研究工作展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    局部线性嵌入在文本分类中的应用
    下载Doc文档

    猜你喜欢