论文题目: 文本分类中特征向量空间降维方法研究
论文类型: 硕士论文
论文专业: 计算机软件与理论
作者: 陈慧芳
导师: 邓建明
关键词: 文本分类,向量空间模型,降维,概念统计
文献来源: 东南大学
发表年度: 2005
论文摘要: 万维网络信息的激增使得人们在面对海量的信息时很难进行选择,文本分类正是为了解决万维网信息检索杂乱无章的现象,作为一种信息组织和管理的技术被提出来的。然而与人工分类问题相比,自动文本分类面临许多问题,主要有:1)用于文本表示的向量空间的维数过大,在这种高维的向量上运用分类算法,很难有大的区分度以区分不同的类别;2)训练文本集必须要覆盖向量空间中的所有特征词,否则通过训练得出的分类器有可能出现偏差,然而对于一个高维的向量空间,要覆盖所有的特征词是很困难的。为了克服上述两个主要问题,特征向量空间降维的概念被提了出来,其方法在近年来得到广泛的关注和研究。本文在前人工作的基础上,着重对基于概念统计的降维方法进行了研究。本文首先对文本分类的基本概念和知识进行了归纳,分析了文本的向量空间模型的表示效力以及它对于分类效果的影响因素;讨论了对特征向量空间进行降维的必要性和基本思路;在对特征词局域性分析的基础上探讨了局部降维的优势;分析了已有的特征空间降维算法,并总结了它们各自的优缺点;讨论了特征词选择和析取的原则及其主要方法。在此基础上本文分析了词形统计的局限性并阐述了引入概念的优势;分析了概念间的层次结构关系;基于对现有的向量空间降维技术的剖析,融合概念分析的方法,提出了一个基于概念统计的向量空间降维方法;并根据在实验中发现的问题对算法进行了改进,使得算法更加完善,并分析了主要算法的时间复杂度。该方法首先对训练文本集中的每篇文本提取出原始的特征词,经过去除停用词、词义消歧的处理后,在类的内部利用概念间的层次关系(主要是上下位关系)用基于概念统计的方法对特征向量进行局部降维。得出的向量与降维前相比,低频特征词的数目大为减少,高频特征词数目增多,且高频特征词的频度得到加强,特征词总的数目减少,向量的维数降低,对于所属类别具有更强的关联性和较好的表示效力,特别是具有较低的冗余和噪音,很好地达到了降维的目的。在对所给算法进行详细说明的基础上,本文对该算法的有效性和可行性用实验进行了评估,分析了实验数据,对实验结果中特征词的频度分布的各种情况探讨了其产生的原因,并对将本文所给算法得出的特征向量运用于具体的文本分类时可能出现的结果进行了分析。另外,本文还对阀值的选取及其依据等降维处理时的取舍策略做了进一步的研究,实验结果也证明本文的阀值选取具有合理性。
论文目录:
摘要
Abstract
第一章 引言
1.1 研究背景
1.2 研究现状
1.3 本文研究目标
1.4 本文研究内容及解决问题的思路
1.5 本文章节安排
第二章 文本分类基础
2.1 文本表示-向量空间模型
2.1.1 特征词的粒度
2.1.2 权值的计算方法
2.2 文本分类的相关算法
2.2.1 文本分类的两个阶段-训练和分类
2.2.2 训练算法和分类算法
2.3 特征向量表示的有效性
第三章 向量空间降维
3.1 向量空间降维必要性与分类
3.1.1 降维的必要性
3.1.2 降维策略分类
3.2 向量空间降维的主要方法及分析
3.2.1 特征词选择主要方法
3.2.2 特征词选择方法分析
3.2.3 特征词析取方法
3.3 本章小结
第四章 基于概念统计析取局域特征空间
4.1 概念的引入
4.1.1 词形统计的局限性
4.1.2 引入概念的必要性
4.1.3 概念间的各种关系及概念语义图
4.2 特征词局域性分析
4.3 基于概念统计析取局域特征空间向量
4.3.1 文本分析与初始特征词提取
4.3.2 去除停用词
4.3.3 词义消歧
4.3.4 概念统计方法
4.4 特征空间降维处理流程
4.5 分析与实验
4.5.1 本文算法对文本分类的影响分析
4.5.2 实验数据分析
第五章 总结与展望
5.1 本文的主要工作
5.2 进一步的考虑
5.2.1 本文方法的不足之处
5.2.2 对今后工作的展望
参考文献
致谢
发布时间: 2007-06-11
参考文献
- [1].基于本体的文本分类的研究与实现[D]. 张琳.沈阳工业大学2009
- [2].文本评论数据质量分析方法研究[D]. 郭卫丽.重庆大学2016
- [3].文本分类中的特征降维方法研究[D]. 万斌候.重庆大学2012
- [4].基于微博文本的话题聚类研究与实现[D]. 沈琳.河北科技大学2014
- [5].文本分类相关算法的研究与实现[D]. 王飞.哈尔滨工程大学2012
- [6].文本分类在电子政务平台中的应用与研究[D]. 项峻求.南昌大学2013
- [7].智能手机电子取证中文本分析的研究[D]. 叶明.武汉邮电科学研究院2014
- [8].基于朴素贝叶斯的文本分类研究及其在微博分类中的应用[D]. 李偲.北京理工大学2015
- [9].基于语义网的文本分类研究[D]. 宋晓旭.沈阳工业大学2011
- [10].基于支持向量机的文本分类研究[D]. 张华鑫.西南科技大学2016
相关论文
- [1].中文文本分类中特征描述及分类器构造方法研究[D]. 刘里.重庆大学2006
- [2].中文文本分类中特征提取算法研究[D]. 彭时名.重庆大学2006
- [3].基于向量空间模型的文本分类技术研究[D]. 苏力华.西安电子科技大学2006
- [4].高性能特征选择及文本分类算法研究[D]. 孙春明.华北电力大学(北京)2007
- [5].中文文本分类研究[D]. 翁金象.山东大学2007
- [6].基于特征权重算法的文本分类研究[D]. 台德艺.合肥工业大学2007
- [7].中文文本分类相关算法的研究与实现[D]. 于瑞萍.西北大学2007
- [8].文本分类中特征选择方法的研究[D]. 余俊英.江西师范大学2007
- [9].文本分类相关技术与应用研究[D]. 王小燕.西北大学2007
- [10].基于向量空间模型的文本分类系统研究与实现[D]. 陈治纲.天津大学2005