BW-LVQ邮件过滤模型

BW-LVQ邮件过滤模型

论文摘要

伴随着Internet 的普及,电子邮件以其快捷、方便、低成本的特点日益得到了广泛的使用,成为了最流行使用的沟通工具之一。然而,作为其发展的副产品――垃圾邮件,却给Internet 用户、网络管理员和网络服务提供商ISP 带来了无尽的烦恼,收件人的时间、带宽和存储资源被无效占用,网络链路因此造成拥塞,还被作为不良信息的载体被到处散发。现在成熟应用的垃圾邮件过滤方法是采用通过软件自动过滤与人工管理相结合的方式,但这不能很好的适应垃圾邮件的多样性,只能过滤掉50%左右的垃圾邮件。因此,迫切需要引入更加智能化的垃圾邮件过滤技术来治理日益猖獗的垃圾邮件问题。本论文课题的主要目标是探索一种具体的垃圾邮件过滤模型,实现并测试该模型。研究中要观察所选择的模型是否适当,注意此模型自身参数和环境参数调节对过滤性能的影响,因此,实验需要能够彻底的检测出模型的有效性和可行性。作者在课题研究期间很好的完成了上述目标。本论文提出了LVQ 邮件过滤模型和改进型BW 邮件过滤模型,详细的描述了两个模型的设计原理,讨论了两者之间的关系以及它们与邮件服务器的关系,并给出了重要的实现框架与代码。LVQ 邮件过滤模型解决了布尔型邮件过滤模型特征项离散、垃圾邮件与正常邮件边界定义模糊的问题;改进型BW 邮件过滤模型针对传统黑白名单模型提出了改进,减少了用户对边界地址错误界定带来的损失。虽然当前已经存在多种多样的垃圾邮件过滤方法,但是还有许多垃圾邮件相关问题没有找到好的解决办法,这大大的影响了邮件过滤系统的过滤性能,使得垃圾邮件的危害没有减轻。本论文提出的新的邮件过滤模型解决了其中的一些问题,在一定环境下能够提高邮件过滤系统的过滤性能,因此,本课题的研究是具有意义的。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 引言
  • 1.1 背景
  • 1.2 项目目标
  • 1.3 论文概要
  • 第二章 理论基础
  • 2.1 邮件过滤的现有方法
  • 2.2 文本分类
  • 2.2.1 文本分类的种类
  • 2.2.1.1 Single-lable vs. Multi-lable
  • 2.2.1.2 Category-pivoted vs. Document-pivoted
  • 2.2.1.3 Hard-decision vs. Ranking
  • 2.2.2 文本机器学习
  • 2.2.2.1 基本学习途径
  • 2.2.2.2 训练集和测试集
  • 2.2.2.3 特征选择
  • 2.2.2.4 有效性评估
  • 2.3 基于学习的方法
  • 2.3.1 Nalve Bayes
  • 2.3.2 Support Vector Machines
  • 2.3.3 Boosting Trees
  • 2.3.4 Chi-Square
  • 第三章 LVQ 邮件过滤模型的设计
  • 3.1 数据预处理
  • 3.1.1 性能测试集的选择
  • 3.1.2 分词处理
  • 3.1.2.1 英文分词
  • 3.1.2.2 中文分词
  • 3.1.3 邮件的表示
  • 3.1.4 特征项的提取
  • 3.2 LVQ 邮件过滤模型
  • 3.2.1 垃圾邮件的定义与分类
  • 3.2.2 布尔型垃圾邮件过滤模型的弊端
  • 3.2.3 学习矢量量化(LVQ)邮件过滤模型
  • 3.2.3.1 模型推理
  • 3.2.3.2 模型构架
  • 3.2.4 LVQ 邮件过滤模型训练算法LVQTrn
  • 3.2.4.1 LVQTrn 算法
  • 3.2.4.2 初始化聚类中心
  • 3.2.4.3 相似度的计算
  • 3.2.4.4 学习率选择
  • 3.2.4.5 终止条件
  • 3.2.5 LVQ 邮件过滤模型过滤算法LVQFlt
  • 3.2.5.1 LVQFlt 算法
  • 3.2.5.2 胜者全得竞争
  • 3.2.5.3 规约计算
  • 3.2.5.4 邮件类型常量标识
  • 第四章 反垃圾邮件LVQ 网络
  • 4.1 参数取值
  • 4.2 网络框架
  • 4.3 程序实现
  • 4.3.1 预处理模块
  • 4.3.1.1 单词的存储结构
  • 4.3.1.2 主流程
  • 4.3.1.3 子类单词信息的统计
  • 4.3.1.4 训练集单词信息的统计
  • 4.3.1.5 特征向量的提取
  • 4.3.2 训练模块
  • 4.3.2.1 主流程
  • 4.3.2.2 权值向量的计算
  • 4.3.2.3 子类竞争
  • 4.3.2.4 聚类中心的调整
  • 4.3.3 测试模块
  • 4.3.3.1 主流程
  • 4.3.3.2 过滤流程
  • 4.3.3.3 规约
  • 4.3.4 评估模块
  • 第五章 反垃圾邮件LVQ 网络性能分析
  • 5.1 评估标准
  • 5.2 性能评估
  • 5.2.1 基本性能
  • 5.2.2 低严格度λ=1
  • 5.2.3 中严格度λ=9
  • 5.2.4 高严格度λ=999
  • 5.2.5 综合评估
  • 5.3 与其他方法的比较
  • 5.3.1 低严格度λ=1
  • 5.3.2 中严格度λ=9
  • 5.3.3 高严格度λ=999
  • 5.3.4 综合评估
  • 第六章 改进型BW 邮件过滤模型的设计与实现
  • 6.1 设计原理
  • 6.2 BW-LVQ 邮件过滤模型
  • 6.3 实现
  • 第七章 基于BW-LVQ 邮件过滤模型的邮件服务器
  • 7.1 邮件服务器过滤模块接口
  • 7.1.1 SMTP 服务器
  • 7.1.2 过滤模块插入接口
  • 7.2 LVQ 邮件过滤模块的插入点
  • 7.2.1 过滤延迟
  • 7.2.2 插入点的选择
  • 7.3 BW 邮件过滤模块的插入点
  • 7.3.1 过滤延迟
  • 7.3.2 插入点的选择
  • 第八章 性能优化讨论
  • 8.1 LVQ 邮件过滤模型
  • 8.1.1 个性化训练
  • 8.1.2 发送者确认机制
  • 8.2 BW 邮件过滤模型
  • 8.2.1 反馈BW 名单机制
  • 第九章 结论
  • 参考文献
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].基于客户端的个性化邮件再过滤系统[J]. 中国科学:信息科学 2018(12)
    • [2].从科幻到现实:人工智能的进化[J]. 译林 2017(02)
    • [3].一种新的邮件过滤技术研究[J]. 计算技术与自动化 2016(04)
    • [4].基于双隶属度模糊支持向量机的邮件过滤[J]. 计算机工程与应用 2010(02)
    • [5].基于负载均衡的邮件过滤网关的研究[J]. 电脑知识与技术 2008(36)
    • [6].基于贝叶斯网络的邮件过滤系统的设计[J]. 科学技术与工程 2008(13)
    • [7].基于聚类的类别模糊邮件过滤方法[J]. 计算机系统应用 2010(09)
    • [8].基于贝叶斯增量分类的邮件过滤研究[J]. 科学技术与工程 2009(09)
    • [9].一种改进自动更新的中文邮件过滤模型的设计[J]. 电脑知识与技术 2013(20)
    • [10].一种基于相关系数的多层邮件过滤系统[J]. 计算机应用研究 2010(12)
    • [11].应用精确代价因子的两层邮件过滤模型[J]. 计算机工程与应用 2010(34)
    • [12].Marshal8e6发布电子邮件过滤解决方案[J]. 计算机安全 2009(01)
    • [13].基于词嵌入与生成对抗网络的垃圾邮件分类算法[J]. 南京工程学院学报(自然科学版) 2018(03)
    • [14].基于深度包检测技术的邮件过滤研究[J]. 电子测量技术 2014(04)
    • [15].基于自然语言处理技术的邮件检测系统[J]. 数字技术与应用 2019(06)
    • [16].基于贝叶斯分类的邮件过滤系统研究与实现[J]. 陕西理工学院学报(自然科学版) 2012(04)
    • [17].基于综合过滤技术的邮件过滤终端研究[J]. 计算机应用与软件 2011(06)
    • [18].基于粗糙集的两阶段邮件过滤方法[J]. 计算机应用 2010(08)
    • [19].基于WEB的企业邮件过滤策略及实现[J]. 信息技术 2008(05)
    • [20].新的基于最小风险的贝叶斯邮件过滤模型[J]. 计算机应用研究 2008(04)
    • [21].三支决策基于粒度的邮件过滤[J]. 电脑知识与技术 2016(17)
    • [22].基于P2P网络的个性化协同邮件过滤模型[J]. 计算机技术与发展 2011(06)
    • [23].基于多规则的客户端邮件过滤系统[J]. 铜陵学院学报 2008(02)
    • [24].基于过滤器的ILS邮件微信集成服务实践[J]. 新世纪图书馆 2019(06)
    • [25].基于朴素贝叶斯算法的垃圾邮件过滤系统的研究与实现[J]. 电子设计工程 2018(17)
    • [26].基于粗糙集的加权朴素贝叶斯邮件过滤方法[J]. 计算机科学 2011(02)
    • [27].电子邮件过滤网关体系结构的探讨[J]. 科教文汇(中旬刊) 2008(08)
    • [28].基于Agent的邮件过滤与个性化分类系统设计[J]. 计算机技术与发展 2009(02)
    • [29].邮件过滤中特征选择算法的研究及改进[J]. 计算机应用 2009(10)
    • [30].基于机群技术的邮件过滤系统设计[J]. 微计算机信息 2008(09)

    标签:;  ;  ;  ;  ;  

    BW-LVQ邮件过滤模型
    下载Doc文档

    猜你喜欢