基于集成学习的垃圾短信多级分类技术研究

基于集成学习的垃圾短信多级分类技术研究

论文摘要

近年来手机短信以其廉价性和方便快捷性的特点越来越成为人们所喜爱的一种联络方式,短信的应用也从最初的人与人之间的沟通工具渐渐地扩展到了一种服务的提供方式,如航班查询、天气预报订阅等。虽然手机短信业务的爆发式增长带给人们的生活极大的便利,但是与此同时,随之而来的大量的垃圾手机短信也逐渐对人们的生活产生极大负面影响。垃圾短信的泛滥不仅干扰人们的正常生活,同时给社会稳定带来了不利影响。本文以垃圾短信过滤技术为研究对象,首先介绍了垃圾短信过滤的传统技术的基本原理,如黑白名单法、关键词过滤法和基于内容识别的机器学习法,以及它们各自的优缺点,并且着重比较了各种不同的机器学习算法对于垃圾短信的分类能力。其次,本文介绍了旨在提高短信分类的稳定性和准确性的各种集成学习多级分类方法,并且以Stacking作为我们的短信过滤系统的集成学习算法,通过实验两种集成策略,我们最终得到了一个比较有效的短信分类系统。本文的主要工作体现在如下几个方面:(1)通过实验分析比较了各种机器学习算法对垃圾短信的分类能力以及它们的优缺点。(2)提出了一种分类器训练策略,通过合并那些容易混淆的类别的数据作为训练集训练出第一级分类器,然后再将这些容易混淆的类别的数据提取出来作为另外一个训练集训练出第二级分类器,使用两级分类策略有助于分类效果的提高。(3)提出了一种基于互信息的特征选择改进算法,使用改进后的算法后取得良好的效果。(4)采用Stacking集成学习技术集成了多个基本分类器,并提出了两种集成策略,在真实数据集上相对于单个分类器提高了分类的准确性。(5)实际实现了一个垃圾短信多级分类的原型系统。(6)提出了未来对这个系统的多个改进方向。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 研究背景和意义
  • 1.2.1 垃圾短信的定义及其种类
  • 1.2.2 短信业务的一般原理
  • 1.2.3 国内外对垃圾短信的治理对策
  • 1.3 本文的主要工作
  • 1.4 本文的组织结构
  • 第二章 当前主流的垃圾短信过滤技术
  • 2.1 宏观的垃圾短信过滤机制
  • 2.2 基于关键词匹配的垃圾短信过滤方法
  • 2.3 基于黑名单的垃圾短信过滤方法
  • 2.4 基于机器学习的垃圾短信过滤方法
  • 2.4.1 概述
  • 2.4.2 短信预处理
  • 2.4.3 文本分词
  • 2.4.4 文本特征选择及文本向量化
  • 2.4.5 分类器的训练和分类
  • 2.4.6 基于机器学习的垃圾短信过滤方法的优势
  • 2.5 垃圾短信过滤系统性能的评价
  • 2.6 本章小结
  • 第三章 基本机器学习算法对短信分类的评价及其改进
  • 3.1 基于决策树的垃圾短信分类法
  • 3.1.1 决策树概述
  • 3.1.2 ID3 决策树算法
  • 3.1.3 实验结果
  • 3.2 基于朴素贝叶斯的垃圾短信分类法
  • 3.2.1 朴素贝叶斯分类概述
  • 3.2.2 实验结果
  • 3.3 基于 k 最近邻的垃圾短信分类法
  • 3.3.1 k 最近邻概述
  • 3.3.2 kNN 的若干问题探讨
  • 3.3.3 实验结果
  • 3.4 基于支持向量机的垃圾短信分类法
  • 3.4.1 支持向量机概述
  • 3.4.2 支持向量机的实验结果
  • 3.5 基本机器学习算法对短信分类能力的比较
  • 3.6 对SVM 的训练和分类策略进行的改进
  • 3.6.1 分类策略的改进
  • 3.6.2 改进后的实验结果
  • 3.7 对特征选择算法的改进
  • 3.7.1 算法的改进
  • 3.7.2 改进后的实验结果
  • 3.8 本章小结
  • 第四章 集成学习在短信分类中的应用与改进
  • 4.1 集成学习理论概述
  • 4.1.1 集成学习概念
  • 4.1.2 各个单分类器的生成
  • 4.2 各种集成学习方法
  • 4.2.1 装袋
  • 4.2.2 提升
  • 4.2.3 Stacked Generalization
  • 4.2.4 交叉验证
  • 4.3 Stacking 集成学习法在垃圾短信中的应用及改进
  • 4.3.1 Stacking 元分类器的构造
  • 4.3.2 基本分类器的构造
  • 4.3.3 集成多个基本分类器的第一种策略
  • 4.3.4 集成多个基本分类器的第二种策略
  • 4.4 本章小结
  • 第五章 垃圾短信分类系统的设计与实现
  • 5.1 系统开发和运行的软硬件配置
  • 5.2 系统的总体流程
  • 5.3 数据库访问模块
  • 5.4 短信预处理模块
  • 5.4.1 短信预处理模块的功能
  • 5.4.2 谐音字、拼音词的处理
  • 5.4.3 干扰字符、繁体字的处理
  • 5.5 短信关键词匹配模块
  • 5.6 特征选择模块
  • 5.7 短信的分词和向量化模块
  • 5.8 各个基本分类器和集成学习分类器模块
  • 5.9 本章小结
  • 第六章 总结与展望
  • 6.1 本文总结
  • 6.2 今后研究展望
  • 致谢
  • 参考文献
  • 攻硕期间取得的研究成果
  • 相关论文文献

    • [1].基于动态分类器集成系统的卷烟感官质量预测方法[J]. 计算机应用与软件 2020(01)
    • [2].基于标准数据集的分类器融合学习模型[J]. 微型电脑应用 2020(04)
    • [3].一种自适应子融合集成多分类器方法[J]. 计算机测量与控制 2019(04)
    • [4].基于多分类器融合的近红外光谱技术鉴别蜂蜜品种[J]. 化学分析计量 2019(03)
    • [5].基于分类器的身份证号码识别研究[J]. 贵州科学 2018(01)
    • [6].一种基于多分类器融合的人体运动行为识别模型[J]. 计算机科学 2016(12)
    • [7].一种基于混淆矩阵的分类器选择方法[J]. 河南理工大学学报(自然科学版) 2017(02)
    • [8].一种代价敏感的三类分类器评估方法的研究与应用[J]. 通化师范学院学报 2017(08)
    • [9].基于多分类器组合的遥感土地利用分类研究[J]. 安徽农业科学 2015(32)
    • [10].多分类器融合与单分类器影像分类比较研究[J]. 矿山测量 2016(04)
    • [11].《未来垃圾分类器》[J]. 幼儿教育 2020(14)
    • [12].基于多分类器组合的城市不透水面提取研究[J]. 城市地理 2017(04)
    • [13].《垃圾分类器》[J]. 辅导员 2016(11)
    • [14].多分类器融合的遥感影像分类方法实验研究[J]. 全球定位系统 2020(05)
    • [15].一种基于核聚类的多分类器选择算法[J]. 电子技术与软件工程 2020(13)
    • [16].基于一种新的级联分类器的目标检测系统[J]. 现代电子技术 2020(01)
    • [17].最佳的分类器链局部检测与挖掘算法[J]. 计算机工程与设计 2017(11)
    • [18].基于多分类器融合与模糊综合评判的滚动轴承故障诊断[J]. 中国科技论文 2016(04)
    • [19].近红外光谱和多分类器融合的葡萄酒品种判别研究[J]. 光谱学与光谱分析 2016(11)
    • [20].基于多分类器集成的语音情感识别[J]. 微电子学与计算机 2015(07)
    • [21].基于集成分类器的流量识别技术研究[J]. 科技视界 2015(33)
    • [22].二叉树型多分类器融合的轴承故障诊断方法[J]. 计算机工程与应用 2015(21)
    • [23].智能垃圾分类器[J]. 科学启蒙 2013(12)
    • [24].一种新的多分类器融合方法[J]. 西南师范大学学报(自然科学版) 2014(01)
    • [25].动态加权投票的多分类器聚合[J]. 现代计算机(专业版) 2014(05)
    • [26].面向用户观点分析的多分类器集成和优化技术[J]. 计算机学报 2013(08)
    • [27].基于证据理论的优化集成分类器融合算法及应用[J]. 化工学报 2012(09)
    • [28].多类不平衡数据上的分类器性能比较研究[J]. 计算机工程 2011(10)
    • [29].基于多分类器融合的语音识别方法研究[J]. 重庆邮电大学学报(自然科学版) 2011(04)
    • [30].基于粗糙集约简的多分类器系统构造方法[J]. 计算机工程与应用 2010(03)

    标签:;  ;  ;  

    基于集成学习的垃圾短信多级分类技术研究
    下载Doc文档

    猜你喜欢