基于文本分类算法的垃圾短信过滤技术研究

基于文本分类算法的垃圾短信过滤技术研究

论文摘要

手机短信因具有移动性好、价格低廉、收发便捷和娱乐性强等特点而使人们逐渐习惯于用短信的方式来传送信息和进行沟通交流。但垃圾短信问题也变得日益严峻。因此,研究短信智能监管技术具有重要的意义。过滤技术是目前对付垃圾短信的主要手段,但采用现有的过滤方法时,短信中心需要对短信进行逐条分析,才能判断是否为垃圾短信,因此处理的效率比较低。同时不管是基于关键词还是基于内容的垃圾短信过滤方法,都存在大量运算,这样会造成短信服务中心网络堵塞,增加网络的成本,其最终结果是采用放弃部分垃圾短信的过滤或延迟短信转发,从而就会降低垃圾短信过滤的准确率和效率。因此,本文针对现有过滤技术的不足,提出了一个基于多层的垃圾短信过滤方法,该方法引入了用户信任度的概念,根据用户的信任度对用户发送的短信进行抽样过滤,这样极大的提高了处理的效率。同时该方法整合了多项垃圾短信过滤技术(黑白名单、关键词及内容过滤技术),该方法较之单一的过滤方法准确率和效率上有很大的提高。本文的主要工作包括:1.提出了基于短信行为特征的垃圾短信判别技术,由于不同的短信用户具有不同的发送行为,通过对短信发送行为的监测不仅可以实时监测垃圾短信,还可以对垃圾短信发送进行预测。2.由于绝大多数手机用户并不是垃圾短信制造者,本文引入了用户信任度的概念,根据用户发送行为确定用户的信任度级别。3.提出了根据用户信任度对用户发送的短信进行抽样检测的方法,该方法在兼顾垃圾短信过滤正确性的情况下,也极大提高了过滤系统对经过短信中心的垃圾短信的监测效率。4.根据提出的抽样监测方法,融合了已有的垃圾短信过滤技术,构建了一个多层的垃圾短信过滤系统。实验表明,本文中提出的新方法对垃圾短信的过滤具有较高的效率。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景和研究意义
  • 1.2 问题描述
  • 1.2.1 垃圾短信的定义及分类
  • 1.2.2 垃圾短信的危害
  • 1.3 研究现状
  • 1.3.1 国外垃圾短信整治状况
  • 1.3.2 国内垃圾短信整治状况
  • 1.3.3 现有的垃圾短信监管技术
  • 1.4 本文的主要研究内容
  • 1.5 本文的组织结构
  • 第二章 文本挖掘关键技术分析
  • 2.1 文本预处理
  • 2.2 文本特征提取
  • 2.2.1 文本特征抽取
  • 2.2.2 文本特征选择
  • 2.3 文本分类
  • 2.3.1 文本分类框架
  • 2.3.2 常见文本分类方法
  • 2.3.3 文本分类的结果评价
  • 2.4 文本挖掘的应用
  • 2.5 本章小结
  • 第三章 垃圾短信过滤技术
  • 3.1 垃圾短信
  • 3.1.1 短信文本的格式
  • 3.1.2 垃圾短信的内容特征
  • 3.1.3 垃圾短信过滤特点
  • 3.2 短信文本预处理
  • 3.3 现有短信过滤技术
  • 3.3.1 黑/白名单技术
  • 3.3.2 发送频率监控方式
  • 3.3.3 关键词过滤技术方式
  • 3.4 贝叶斯短信过滤
  • 3.4.1 贝叶斯方法简介
  • 3.4.2 基于最小风险的贝叶斯决策
  • 3.4.3 贝叶斯过滤的反馈学习
  • 3.5 本章小结
  • 第四章 基于多层的垃圾短信过滤系统
  • 4.1 多层的垃圾短信过滤系统的分析与设计
  • 4.2 系统中的主要过滤模块
  • 4.3 系统主要处理流程
  • 4.3.1 用户信任度抽样流程
  • 4.3.2 用户短信长度过滤流程
  • 4.3.3 关键词过滤流程
  • 4.3.4 内容过滤流程
  • 4.3.5 正常短信处理流程
  • 4.3.6 垃圾短信的处理流程
  • 4.4 实验与分析
  • 4.4.1 实验环境
  • 4.4.2 实验数据
  • 4.4.3 实验评价标准
  • 4.4.4 系统运行界面
  • 4.4.5 实验结果与分析
  • 4.5 本章小结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 致谢
  • 攻硕期间取得的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于文本分类算法的垃圾短信过滤技术研究
    下载Doc文档

    猜你喜欢