论文摘要
十多年来,短信服务在世界各国电信市场中得到巨大的发展。而手机短信发送量的增长伴随而来的就是日趋泛滥的垃圾短信。词特征数量多,维数大,需要进行特征选择,否则会严重影响过滤效果。在中文文本中,中文分词是提取词特征必不可少的工作,中文分词算法复杂,计算量大,需要耗费大量的计算资源。这些缺陷意味着在使用词特征时需要较好的硬件设备和较多的处理时间。而在垃圾短信过滤的实际应用中,这些条件常常无法满足。针对词特征的缺陷,本实验使用字特征来代替词特征。字特征维数有限,无需分词的特点可以有效地节约计算资源,减少计算量,缩短处理时间,解决词特征在垃圾短信过滤中存在的应用问题。本实验使用柏努利贝叶斯、多项式贝叶斯、径向基支持向量机、C4.5决策树四种分类器,几率比、信息增益、互信息三种特征选择方法,500维、1000维、1500维、2000维、全维度五种维度的空间,通过不同分类器、特征选择方法、维度空间的交叉使用,共构建了52种不同的过滤条件,分别使用字特征和词特征得到过滤的正确率,共52对对比结果。对比结果显示,在C4.5决策树、低维度的柏努利贝叶斯和低维度的互信息选出的特征空间等三种条件下,字特征的过滤效果都要优于词特征;在其它条件下,字特征的过滤效果与词特征差距也不大。分析结果可知,在硬件设备和处理时间有限的条件下,使用字特征和柏努利贝叶斯或C4.5决策树搭配进行垃圾短信过滤可以得到非常不错的过滤效果。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题研究背景1.1.1 短信的发展及垃圾短信的泛滥1.1.2 垃圾短信的定义及危害1.1.3 垃圾短信过滤方法1.2 基于字特征的文本分类的研究现状1.3 本文的主要工作1.4 本文的内容安排第二章 相关技术的研究现状2.1 基于内容的中文垃圾短信过滤2.2 中文分词2.2.1 现有的分词算法2.2.2 中文分词中的困难第三章 词特征的缺陷与字特征的优势3.1 词特征的缺陷3.2 字特征的优势第四章 过滤条件的选择研究4.1 过滤条件的选择研究4.2 分类器的选择研究4.2.1 朴素贝叶斯4.2.1.1 贝叶斯法则4.2.1.2 朴素贝叶斯分类器4.2.1.3 朴素贝叶斯分类器的选择4.2.2 支持向量机4.2.2.1 空间二分类问题4.2.2.2 支持向量机分类器4.2.2.3 核函数的选择4.2.3 决策树4.2.3.1 决策树概述4.2.3.2 C4.5算法4.3 特征选择的选择研究4.3.1 几率比4.3.2 信息增益4.3.3 互信息4.4 空间维度的选择研究第五章 实验步骤及结果分析5.1 实验步骤5.1.1 数据收集5.1.2 预处理5.1.3 文本表示5.1.4 特征提取5.1.5 分类器的构建与分类5.1.6 结果评估5.2 实验结果5.3 结果分析第六章 结论与展望6.1 结论6.2 展望参考文献致谢攻读学位期间发表或已录用的学术论文
相关论文文献
标签:字特征论文; 词特征论文; 垃圾短信过滤论文; 文本分类论文;