垃圾短信过滤中字特征与词特征对过滤效果的比较研究

垃圾短信过滤中字特征与词特征对过滤效果的比较研究

论文摘要

十多年来,短信服务在世界各国电信市场中得到巨大的发展。而手机短信发送量的增长伴随而来的就是日趋泛滥的垃圾短信。词特征数量多,维数大,需要进行特征选择,否则会严重影响过滤效果。在中文文本中,中文分词是提取词特征必不可少的工作,中文分词算法复杂,计算量大,需要耗费大量的计算资源。这些缺陷意味着在使用词特征时需要较好的硬件设备和较多的处理时间。而在垃圾短信过滤的实际应用中,这些条件常常无法满足。针对词特征的缺陷,本实验使用字特征来代替词特征。字特征维数有限,无需分词的特点可以有效地节约计算资源,减少计算量,缩短处理时间,解决词特征在垃圾短信过滤中存在的应用问题。本实验使用柏努利贝叶斯、多项式贝叶斯、径向基支持向量机、C4.5决策树四种分类器,几率比、信息增益、互信息三种特征选择方法,500维、1000维、1500维、2000维、全维度五种维度的空间,通过不同分类器、特征选择方法、维度空间的交叉使用,共构建了52种不同的过滤条件,分别使用字特征和词特征得到过滤的正确率,共52对对比结果。对比结果显示,在C4.5决策树、低维度的柏努利贝叶斯和低维度的互信息选出的特征空间等三种条件下,字特征的过滤效果都要优于词特征;在其它条件下,字特征的过滤效果与词特征差距也不大。分析结果可知,在硬件设备和处理时间有限的条件下,使用字特征和柏努利贝叶斯或C4.5决策树搭配进行垃圾短信过滤可以得到非常不错的过滤效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景
  • 1.1.1 短信的发展及垃圾短信的泛滥
  • 1.1.2 垃圾短信的定义及危害
  • 1.1.3 垃圾短信过滤方法
  • 1.2 基于字特征的文本分类的研究现状
  • 1.3 本文的主要工作
  • 1.4 本文的内容安排
  • 第二章 相关技术的研究现状
  • 2.1 基于内容的中文垃圾短信过滤
  • 2.2 中文分词
  • 2.2.1 现有的分词算法
  • 2.2.2 中文分词中的困难
  • 第三章 词特征的缺陷与字特征的优势
  • 3.1 词特征的缺陷
  • 3.2 字特征的优势
  • 第四章 过滤条件的选择研究
  • 4.1 过滤条件的选择研究
  • 4.2 分类器的选择研究
  • 4.2.1 朴素贝叶斯
  • 4.2.1.1 贝叶斯法则
  • 4.2.1.2 朴素贝叶斯分类器
  • 4.2.1.3 朴素贝叶斯分类器的选择
  • 4.2.2 支持向量机
  • 4.2.2.1 空间二分类问题
  • 4.2.2.2 支持向量机分类器
  • 4.2.2.3 核函数的选择
  • 4.2.3 决策树
  • 4.2.3.1 决策树概述
  • 4.2.3.2 C4.5算法
  • 4.3 特征选择的选择研究
  • 4.3.1 几率比
  • 4.3.2 信息增益
  • 4.3.3 互信息
  • 4.4 空间维度的选择研究
  • 第五章 实验步骤及结果分析
  • 5.1 实验步骤
  • 5.1.1 数据收集
  • 5.1.2 预处理
  • 5.1.3 文本表示
  • 5.1.4 特征提取
  • 5.1.5 分类器的构建与分类
  • 5.1.6 结果评估
  • 5.2 实验结果
  • 5.3 结果分析
  • 第六章 结论与展望
  • 6.1 结论
  • 6.2 展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表或已录用的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    垃圾短信过滤中字特征与词特征对过滤效果的比较研究
    下载Doc文档

    猜你喜欢