论文题目: 基于关联规则和向量空间模型的文本分类研究
论文类型: 硕士论文
论文专业: 软件工程
作者: 叶振宇
导师: 吴介一,蔡运涛
关键词: 向量空间模型,关联规则,文本分类,特征选择,数据挖掘
文献来源: 东南大学
发表年度: 2005
论文摘要: 文本分类技术涉及到信息检索,模式识别,机器学习等领域。它将文本按照人工事先分好的类别自动归类,而将该技术应用到信息检索时,则能提升搜索引擎的效果。经典的文本分类包括两大步骤:(1)提取文本中的特征项,并对原始特征项进行选择,最后把文本映射到向量空间模型中去;(2)利用某个分类算法分类。然而向量空间模型有其缺点,它假设所有的特征项之间是相互独立的,事实并非如此,因此它无法发掘特征项之间的关联性。关联规则挖掘是数据挖掘一个重要领域,用于从海量数据库中寻找隐含的规则。利用关联规则挖掘文本则首先要将文本转换成事务,把一个文本看成是一个事务,文本中的特征项是事务中的项(item)。本文将分类关联规则引入特征选择过程,提出了一种二次特征选择方法。由于文本事务数据库的稀疏性,直接用关联规则挖掘不但开销大,而且效果不是很好。通过观察原始特征库,将库中特征项大致分成四类。先用类间DF“落差”初步过滤,获得对分类贡献较大的模糊词和分类词。该方法简单易行,系统开销小,过滤强度可通过阈值调节。在此基础上对第一次选择结果用CBA-RG算法进行类别关联规则挖掘,用挖掘出来的关联规则的前件组成特征集。实验证明,这种方法有效的提高了分类效果。
论文目录:
摘要
Abstract
第一章 绪论
1.1 背景和意义
1.2 问题描述
1.3 国内外研究现状
1.4 本章小结
第二章 文本的向量表示
2.1 向量空间模型简介
2.2 汉语分词
2.3 特征抽取(Feature extraction)
2.4 分类算法
2.5 评估准则
2.6 本章小结
第三章 关联规则挖掘
3.1 数据挖掘和KDD
3.2 关联规则的概念及分类
3.3 关联规则挖掘算法
3.4 本章小结
第四章 关联特征选择研究
4.1 向量空间模型的缺点
4.2 挖掘特征项与类别的关系
4.3 二次特征选择
4.4 本章小结
第五章 实验设计与结果
5.1 实验软硬件设备
5.2 系统架构
5.3 实验结果与分析
第六章 结论和将来工作
参考文献
作者简介
致谢
发布时间: 2007-06-11
参考文献
- [1].基于概念的文本分类算法研究[D]. 李运龙.华南理工大学2010
- [2].基于概念的文本分类研究[D]. 蒋敏梅.北京交通大学2008
- [3].文本分类相关技术与应用研究[D]. 王小燕.西北大学2007
- [4].基于向量空间模型的文本分类算法研究[D]. 张振峰.杭州电子科技大学2011
- [5].基于语义的领域相关文本分类研究[D]. 张桂喜.北京工业大学2011
- [6].文本分类中特征提取和特征加权方法研究[D]. 蒋健.重庆大学2010
- [7].基于特征权重算法的文本分类研究[D]. 台德艺.合肥工业大学2007
- [8].面向英语学习的文本难度判定[D]. 吴锦霞.哈尔滨工业大学2007
- [9].文本分类及其在涉密资料管理中的应用[D]. 董学春.合肥工业大学2006
- [10].基于聚类分析的图模型文本分类[D]. 刘小荣.内蒙古科技大学2011
相关论文
- [1].基于向量空间模型的中文文本聚类方法的研究[D]. 姚清耘.上海交通大学2008
- [2].中文文本分类中特征描述及分类器构造方法研究[D]. 刘里.重庆大学2006
- [3].基于向量空间模型的文本分类技术研究[D]. 苏力华.西安电子科技大学2006
- [4].基于向量空间模型的自反馈的文本分类系统的研究与实现[D]. 庞剑锋.中国科学院研究生院(计算技术研究所)2001
- [5].基于向量空间模型与规则匹配相结合的文本层次分类系统的研究[D]. 白振田.南京农业大学2006
- [6].基于向量空间模型的文本自动分类系统的研究与实现[D]. 丁琼.同济大学2007
- [7].基于潜在语义分析的Web文本分类研究[D]. 王剑锋.华北电力大学(河北)2007
- [8].基于向量空间模型的文本自动分类算法的研究与改进[D]. 王潇.西北师范大学2006
- [9].基于关联规则的中文文本自动分类算法研究[D]. 杨柯.重庆大学2007
- [10].基于向量空间模型的文本分类系统研究与实现[D]. 陈治纲.天津大学2005