基于SVM和D-S理论的垃圾邮件过滤研究

基于SVM和D-S理论的垃圾邮件过滤研究

论文摘要

随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益严峻,它不仅传播有害信息,而且耗费大量的公共资源,侵害电子邮件用户和企业的合法权益。尽管目前已经存在许多的垃圾邮件过滤方法,但是垃圾邮件不降反升的局面表明,已有的垃圾邮件过滤方法并未取得理想的过滤效果。所以,研究新型高效的邮件过滤系统仍具有特别重要的现实意义。支持向量机(SVM)是在统计学习理论的基础上发展而来的一种新的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。它不仅考虑了对推广能力的要求,而且追求在有限信息的条件下得到最优结果。因此,本文将支持向量机应用于邮件过滤。但是,该技术通常仅仅被应用到基于内容的垃圾邮件过滤中,而很少在邮件标题中讨论到。短小的邮件,包括邮件内容为空的,仅通过分析邮件内容很难被断定为垃圾邮件。如果辨别时考虑邮件标题的特征,结果可能会更加客观和准确。另外,由于垃圾邮件本身的一些伪装方法比较好或者合法邮件的一些关键字和符合垃圾邮件的关键字匹配,每个邮件样本对划分的影响是不同的。一个邮件样本不能明确地归为某一类,而以一定概率或一定隶属度属于某一类,则会提高准确率。因此,仅用邮件分类输出y∈{-1,+1}表示类别信息并不恰当。从上述两个问题出发,本文提出分别根据邮件信头和邮件信体的特征,应用SVM的概率分类邮件,并在邮件的识别框架中加入“不确定邮件”,即在邮件预处理时,分别对邮件头的关键字段和邮件正文进行提取,构成邮件头特征库和邮件体特征库,然后用SVM分类器分别训练,应用SVM的概率分类邮件,分别计算出信头和信体属于垃圾邮件、合法邮件和不确定邮件这三个类别的概率。D-S(Dempster Shafer)证据理论是一套基于“证据”和“组合”来处理不确定性推理问题的数学方法,采用D-S理论能有效地提高目标的识别能力,通过D-S证据合成,目标识别的不确定性下降。于是,本文提出利用D-S理论的合成规则合并信头和信体的概率分配,得到邮件属于三类的概率分配,然后根据D-S理论的决策规则来判断邮件所属类别,降低了邮件识别的不确定性,有效提高了垃圾邮件辨别的准确率。总之,本文提出基于SVM和D-S理论的垃圾邮件识别模型,它根据邮件标题和内容的特征应用SVM概率筛选邮件,最后应用D-S理论识别垃圾邮件,有效提高了垃圾邮件过滤器的准确率。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 垃圾邮件过滤技术的研究现状
  • 1.2.1 基于IP地址的垃圾邮件过滤方法
  • 1.2.2 基于手工规则的垃圾邮件过滤方法
  • 1.2.3 基于内容的垃圾邮件过滤方法
  • 1.3 论文研究内容
  • 1.4 论文组织结构
  • 第二章 邮件预处理和特征选取算法
  • 2.1 邮件预处理
  • 2.1.1 邮件信头关键字段提取
  • 2.1.2 邮件正文提取
  • 2.1.3 邮件分词
  • 2.1.4 邮件表示
  • 2.2 各种特征选取算法
  • 2.2.1 特征选取算法
  • 2.2.2 各种特征选择算法的比较
  • 第三章 支持向量机(SVM)
  • 3.1 支持向量机的分类原理
  • 3.1.1 线性支持向量机
  • 3.1.2 非线性支持向量机
  • 3.1.3 支持向量机和结构风险最小化原则
  • 3.2 支持向量机的后验概率
  • 3.3 支持向量机在文本分类中的应用
  • 第四章 D-S证据理论
  • 4.1 D-S证据理论的基本理论
  • 4.1.1 识别框架
  • 4.1.2 基本概率分配函数(BPAF)、置信函数(BEL)与似然函数(PL)
  • 4.1.3 D-S合成规则
  • 4.2 D-S证据理论方法用于目标识别
  • 4.2.1 目标识别的结构
  • 4.2.2 决策规则
  • 4.3 系统仿真
  • 第五章 系统设计和实验测试
  • 5.1 系统设计与实现
  • 5.1.1 开发环境介绍
  • 5.1.2 系统结构
  • 5.1.3 基于SVM和D-S理论的模型结构
  • 5.2 邮件预处理
  • 5.2.1 邮件头的特征选择
  • 5.2.2 邮件体的预处理
  • 5.3 SVM分类器的设计
  • 5.3.1 SVM分类器的训练过程
  • 5.3.2 SVM分类器的测试过程
  • 5.4 实验结果
  • 5.4.1 垃圾邮件的评价体系
  • 5.4.2 实验语料
  • 5.4.3 测试结果
  • 5.4.4 实验结果分析
  • 第六章 总结及展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表论文
  • 相关论文文献

    • [1].D-S证据融合的坦克火控系统混合故障诊断[J]. 火炮发射与控制学报 2020(01)
    • [2].基于改进D-S证据理论的鸡舍环境控制决策模型研究[J]. 黑龙江畜牧兽医 2020(06)
    • [3].基于D-S理论的电子档案信息可信度识别系统[J]. 电子设计工程 2020(20)
    • [4].基于D-S证据理论的航空发动机早期故障诊断方法[J]. 工业技术创新 2016(06)
    • [5].基于云模型和D-S理论的冲击地压危险性综合评价[J]. 矿业研究与开发 2017(06)
    • [6].基于D-S证据理论的石油钻机安全信息融合模型研究[J]. 石油矿场机械 2017(04)
    • [7].基于D-S理论和模糊神经网络的疲劳驾驶监测[J]. 自动化与仪表 2016(03)
    • [8].基于D-S证据理论的生产计划敏捷性评价[J]. 价值工程 2014(30)
    • [9].基于D-S论据理论的网络安全态势预测方法研究[J]. 网络安全技术与应用 2014(12)
    • [10].基于D-S证据理论空中交通管制系统能力评估[J]. 太赫兹科学与电子信息学报 2015(02)
    • [11].基于D-S证据理论的飞机空气制冷机寿命趋势分析[J]. 火力与指挥控制 2015(11)
    • [12].基于D-S证据理论高速列车横向失稳故障判别研究[J]. 中国测试 2017(07)
    • [13].基于正态云模型和D-S证据理论的开关柜运行状态综合评估[J]. 高压电器 2017(09)
    • [14].基于D-S数据融合的污水源热泵故障诊断研究[J]. 工业控制计算机 2020(11)
    • [15].基于D-S证据理论的电厂工业控制系统信息安全风险评估[J]. 华东理工大学学报(自然科学版) 2014(04)
    • [16].基于改进D-S证据理论的导弹控制系统完好性评估[J]. 电光与控制 2020(02)
    • [17].D-S理论在运筹学教学中的应用研究[J]. 产业与科技论坛 2020(17)
    • [18].基于D-S理论的多特征遥感影像变化检测方法[J]. 北京测绘 2017(05)
    • [19].基于D-S证据理论的高校信息化建设绩效评价实证研究[J]. 重庆理工大学学报(自然科学) 2016(06)
    • [20].一种简单有效的处理冲突证据的D-S改进方法[J]. 指挥控制与仿真 2011(02)
    • [21].基于通信特征和D-S证据理论分析僵尸网络相似度[J]. 通信学报 2011(04)
    • [22].基于改进的D-S证据理论的栅格地图构建[J]. 吉林大学学报(工学版) 2011(04)
    • [23].一种基于D-S理论的网格环境下移动代理的动态规划方案[J]. 桂林电子科技大学学报 2009(05)
    • [24].基于D-S理论的信息融合技术在矿井通风系统稳定性评价中的应用[J]. 科技情报开发与经济 2009(35)
    • [25].D-S证据融合规则的研究[J]. 科技广场 2008(12)
    • [26].基于D-S证据理论的后方车材仓库管理水平综合评估[J]. 军事交通学院学报 2015(02)
    • [27].基于D-S证据理论的空气预热器故障诊断[J]. 华北电力技术 2014(11)
    • [28].基于云模型和D-S理论的煤矿安全管理评价方法[J]. 黑龙江科技学院学报 2013(05)
    • [29].基于证据可信度的D-S证据理论合成规则[J]. 微计算机信息 2012(07)
    • [30].基于改进的D-S证据理论的中长期负荷预测方法[J]. 电工技术学报 2012(08)

    标签:;  ;  ;  ;  ;  

    基于SVM和D-S理论的垃圾邮件过滤研究
    下载Doc文档

    猜你喜欢