基于支持向量机的垃圾短信过滤方法研究

基于支持向量机的垃圾短信过滤方法研究

论文摘要

随着手机的普及使用,手机短信业务已经成为人们重要的信息交流方式之一。然而,随之而来的问题是垃圾短信大量泛滥,日益猖獗,严重干扰到人们的正常生活,同时也影响社会的稳定团结。如何从技术上对垃圾短信进行过滤拦截,制约垃圾短信的传播,已经成为亟待解决的现实问题。本文从短信文本内容角度出发,将垃圾短信过滤看作短信文本的两类识别问题(即识别短信是否属于垃圾短信的过程),结合短信的特点,引入支持向量机方法,提出了基于支持向量机的垃圾短信过滤方法。该方法依据短信内容作为出发点,利用支持向量机算法对短信文本进行分类识别,进而完成对垃圾短信的过滤。本文的主要工作包括:1.针对传统垃圾短信过滤方法存在的分类精度低,自适应能力差等缺陷,提出了基于支持向量机的短信分类方法,描述了实现的步骤,并对所涉及关键技术,包括特征降维方式,文本表示方法以及分类算法等,进行了深入研究,并通过实验确定适应于支持向量机短信分类的惩罚参数以及核函数。2.针对标准支持向量机方法在短信分类中存在的特征重复,噪声干扰等问题,提出了改进办法。该方法利用支持向量机对短信是否包含关键特征进行识别,将识别结果加入到原始特征空间,并进行重复特征及噪声影响的处理,再进行垃圾短信的识别。3.根据提出的基于支持向量机短信分类方法,融合传统的垃圾短信过滤技术,构建了一个垃圾短信过滤模拟系统,并进行了垃圾短信过滤方法的实验比较。实验表明,本文提出基于支持向量机的短信过滤方法有效地提高了垃圾短信过滤的准确率。

论文目录

  • 致谢
  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 选题背景
  • 1.2 垃圾短信整治现状
  • 1.2.1 垃圾短信监管概况
  • 1.2.2 垃圾短信过滤技术现状
  • 1.3 研究内容
  • 1.4 论文组织
  • 2 垃圾短信及其过滤方法
  • 2.1 垃圾短信及特征分析
  • 2.1.1 短信的格式
  • 2.1.2 垃圾短信的特征分析
  • 2.2 垃圾短信过滤端口
  • 2.2.1 短信工作原理
  • 2.2.2 垃圾短信过滤机制
  • 2.3 垃圾短信过滤方法
  • 2.3.1 基于流量控制方法
  • 2.3.2 基于关键词匹配方法
  • 2.3.3 基于黑白名单过滤方法
  • 2.3.4 基于内容的垃圾短信过滤方法
  • 2.4 本章小结
  • 3 基于支持向量机的垃圾短信过滤方法
  • 3.1 支持向量机理论及其模型
  • 3.1.1 统计学习理论
  • 3.1.2 支持向量机基本思想
  • 3.1.3 支持向量机数学模型
  • 3.2 基于支持向量机的短信分类方法
  • 3.2.1 短信预处理
  • 3.2.2 短信特征降维
  • 3.2.3 短信的文本表示
  • 3.2.4 构建分类器
  • 3.2.5 支持向量机的反馈学习
  • 3.3 评价标准及实验分析
  • 3.3.1 实验环境
  • 3.3.2 实验数据
  • 3.3.3 评价标准
  • 3.3.4 特征降维方法实验结果及分析
  • 3.3.5 惩罚参数实验结果及分析
  • 3.3.6 核函数实验结果及分析
  • 3.3.7 支持向量机与神经网络方法实验比较
  • 3.4 支持向量机短信分类方法遇到的问题及改进办法
  • 3.4.1 存在的问题及分析
  • 3.4.2 改进方法
  • 3.4.4 实验结果及分析
  • 3.5 本章小结
  • 4 垃圾短信过滤系统的设计与实现
  • 4.1 系统框架设计
  • 4.2 系统主要模块
  • 4.2.1 基于特征过滤模块
  • 4.2.2 基于内容识别模块
  • 4.3 系统主要处理流程
  • 4.3.1 黑白名单处理流程
  • 4.3.2 流量控制处理流程
  • 4.3.3 关键词过滤流程
  • 4.3.4 支持向量机短信分类过滤流程
  • 4.4 实验分析
  • 4.4.1 实验数据
  • 4.4.2 评价标准
  • 4.4.3 实验结果与分析
  • 4.5 本章小结
  • 5 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 附录
  • 作者简介
  • 学位论文数据集
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于支持向量机的垃圾短信过滤方法研究
    下载Doc文档

    猜你喜欢