基于语义集合模型及有限自动机的垃圾邮件分类研究

基于语义集合模型及有限自动机的垃圾邮件分类研究

论文摘要

根据中国互联网协会反垃圾邮件中心2007年反垃圾邮件调查,我国的垃圾邮件数量居全球第三位,反垃圾邮件研究显得日益突出和重要。目前,主流反垃圾邮件方法是基于内容的过滤,该方法可分为基于规则过滤和基于统计及机器学习两种。首先,本文根据有限自动机理论对现有的规则过滤方法进行了改进,使其处理效率大幅提高。第二,由于基于统计及机器学习的方法受其所使用的向量空间模型的限制,不能利用邮件中蕴含的丰富语义信息,本文创新性的提出并实现了一种基于语义集合模型(Semantic Set Model,SSModel)的垃圾邮件分类方法,并在CCERT数据集上对该模型及分类方法进行了评估及试验分析。目前在使用规则过滤方法的反垃圾邮件系统中,规则匹配部分基本上都采用SpamAssassin(SA)的办法,即以perl正则表达式匹配为基础。但对这些系统而言,当规则集过大时,系统的性能就会大幅降低。本文将有限自动机理论应用于规则匹配,不仅解决了由于规则集过大而造成的系统性能下降问题,并且使系统不再依赖于perl解释器,从而可最大限度的将已有规则集集成到其它反垃圾邮件系统中。本文提出的基于语义集合模型的垃圾邮件分类方法有如下两大优点:第一,语义集合模型的独创性在于它以自然语言中词之间的天然联系为基础,试图将语言中所蕴含的部分语义信息保留到模型里,从而可以在以后的处理中利用该信息提高反垃圾邮件系统的准确率。第二,由于隐私保护策略,合法邮件数据集的获取是一个难题。本文在语义集合模型的基础上建立了仅依赖于垃圾邮件数据集的“垃圾邮件类”,该邮件类充分挖掘了垃圾邮件本身的特征,使其可以识别足够多的垃圾邮件,从而将合法邮件定义为它所不能识别的邮件,这与现实中合法邮件广泛的主题相吻合。这一分类方法使得垃圾邮件过滤系统的建立不再需要合法邮件样本集,据我们所知,我们的垃圾邮件过滤系统是第一个仅依赖于垃圾邮件数据集的过滤系统。本文使用垃圾邮件精确率(SP)、垃圾邮件召回率(SR)及总代价率(TCR)对基于语义集合模型的分类方法进行了评估。在CCERT 2005年7月数据集上,该方法所得的精确率为97.51%、召回率为93.34%;当参数λ为1、9时,所得的TCR分别为11.05、3.55(参数“距离”为30,“阈值”为5)。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 问题描述
  • 1.2 面临问题
  • 1.2.1 语言模型中的语义表示
  • 1.2.2 训练集中正常邮件的获取
  • 1.2.3 规则过滤中的处理效率
  • 1.3 论文创新点
  • 1.4 论文章节安排
  • 第二章 电子邮件体系结构与垃圾邮件过滤技术
  • 2.1 电子邮件系统简介
  • 2.1.1 邮件传输过程
  • 2.1.2 邮件格式
  • 2.2 邮件系统常用协议
  • 2.2.1 SMTP协议
  • 2.2.2 POP3协议
  • 2.2.3 IMAP协议
  • 2.2.4 MIME协议
  • 2.3 垃圾邮件过滤技术的国内外发展现状与趋势
  • 2.4 统计及机器学习的过滤算法
  • 2.4.1 贝叶斯决策论及在文本分类中的应用
  • 2.4.2 支持向量机
  • 2.4.3 Adaboost算法
  • 2.5 规则过滤技术
  • 2.6 本章小结
  • 第三章 基于有限自动机理论的规则过滤方法
  • 3.1 正则表达式
  • 3.2 有限自动机
  • 3.2.1 确定的有限自动机
  • 3.2.2 非确定的有限自动机
  • 3.3 正则表达式与有限自动机之间的转换
  • 3.4 正则表达式匹配效率比较
  • 3.5 规则过滤方法改进
  • 3.5.1 规则格式
  • 3.5.2 改进方法及步骤
  • 3.5.3 相关问题及处理方法
  • 3.6 本章小结
  • 第四章 基于语义集合模型的垃圾邮件分类算法
  • 4.1 语义集合模型
  • 4.1.1 引言
  • 4.1.2 模型建立
  • 4.2 基于语义集合模型的垃圾邮件分类算法
  • 4.2.1 垃圾邮件类的建立
  • 4.2.2 分类算法
  • 4.3 算法实现中的相关问题
  • 4.3.1 文本预处理
  • 4.3.2 匹配问题
  • 4.4 模型及算法评析
  • 4.5 本章小结
  • 第五章 模型评估与试验分析
  • 5.1 数据集
  • 5.2 评估方法
  • 5.3 实验方法及结果分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 致谢
  • 参考文献
  • 攻硕期间取得的研究成果
  • 相关论文文献

    • [1].改进支持向量机的电子邮件分类[J]. 现代电子技术 2017(01)
    • [2].基于基本显露模式的电子邮件分类与过滤技术[J]. 南京大学学报(自然科学版) 2008(05)
    • [3].基于粗糙集理论的双向垃圾邮件分类模型的研究[J]. 计算机工程与科学 2008(10)
    • [4].基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型[J]. 计算机应用 2009(03)
    • [5].基于神经网络的邮件分类识别模型研究[J]. 南华大学学报(自然科学版) 2008(02)
    • [6].危险理论在电子邮件分类中的应用[J]. 华中师范大学学报(自然科学版) 2010(01)
    • [7].支持向量机在电子邮件分类中的应用研究[J]. 计算机仿真 2011(08)
    • [8].模糊决策树算法在邮件分类中的应用[J]. 科技通报 2012(06)
    • [9].基于朴素贝叶斯的垃圾邮件分类系统的设计[J]. 盐城工学院学报(自然科学版) 2008(02)
    • [10].基于概念向量空间模型的电子邮件分类[J]. 计算机应用 2008(12)
    • [11].基于概率神经网络的垃圾邮件分类[J]. 计算机与现代化 2008(01)
    • [12].垃圾邮件分类技术对比研究[J]. 信息网络安全 2014(02)
    • [13].基于颜色和边缘特征直方图的图像型垃圾邮件分类模型[J]. 计算机应用研究 2010(07)
    • [14].邮件分类[J]. 科学中国人 2016(26)
    • [15].粗糙集与决策树在电子邮件分类与过滤中的应用[J]. 计算机工程与应用 2009(16)
    • [16].Exchange 2010邮件分类管理技巧[J]. 网络与信息 2010(11)
    • [17].基于改进TFIDF算法的邮件分类技术[J]. 计算机技术与发展 2018(08)
    • [18].基于Hadoop平台的电子邮件分类[J]. 电脑知识与技术 2014(34)
    • [19].贝页斯垃圾邮件分类系统成本参数调整对系统精度的影响[J]. 北京理工大学学报 2019(02)
    • [20].贝叶斯邮件分类中概念漂移问题研究[J]. 计算机应用与软件 2011(09)
    • [21].基于Skip-gram的CNNs文本邮件分类模型[J]. 计算机技术与发展 2019(06)
    • [22].基于MapReduce并行SVM的垃圾邮件分类[J]. 软件导刊 2016(06)
    • [23].个性化邮件分类系统的设计分析[J]. 信息与电脑(理论版) 2013(20)
    • [24].云环境下NB算法的垃圾邮件过滤研究[J]. 微电子学与计算机 2018(08)
    • [25].基于关联规则的垃圾邮件分类模型[J]. 计算机应用与软件 2015(08)
    • [26].统计学理论在邮件分类中的应用研究[J]. 计算机技术与发展 2008(12)
    • [27].利用遗传算法优化的支持向量机垃圾邮件分类[J]. 计算机应用 2009(10)
    • [28].基于改进堆叠自动编码机的垃圾邮件分类[J]. 计算机应用 2016(01)
    • [29].基于动态特征库的电子邮件分类的研究[J]. 计算机与现代化 2012(07)
    • [30].人工免疫系统中参数对算法性能的影响分析[J]. 焦作师范高等专科学校学报 2008(04)

    标签:;  ;  ;  ;  ;  

    基于语义集合模型及有限自动机的垃圾邮件分类研究
    下载Doc文档

    猜你喜欢