基于SVM的中文电子邮件过滤方法研究

基于SVM的中文电子邮件过滤方法研究

论文摘要

随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益严峻,它不仅传播有害信息,而且耗费大量的公共资源,侵害电子邮件用户和企业的合法权益。尽管目前已经存在许多的垃圾邮件过滤方法,但是垃圾邮件不降反升的局面表明,已有的垃圾邮件过滤方法并未取得理想的过滤效果。所以,反垃圾邮件问题已成为全球性的具有现实意义的问题。目前的垃圾邮件过滤方法逐渐倾向于采用基于内容的机器学习判别方法,其中基于规则和基于概率统计的方法是其中的典型代表,这些方法实现简单、过滤效果好,但由于对基于内容的垃圾邮件过滤器影响较大的因素主要是邮件的特征表示和分类器的分类速度,这些方法都无法协调过滤速度和精度的关系。支持向量机是近年来得到普遍关注的一类学习机器,它以统计学习理论(Statistical Learning Theory,SLT)为基础,广泛应用于语音处理、图形检索、文本分类等领域,SVM不但分类速度快、精度高,而且可以有效避免“维数灾难”,是一种公认的高效的机器学习方法。本文研究了基于内容的SVM中文电子邮件过滤方法,主要的工作包括以下几个内容:(1)在大规模真实实验数据的基础上,建立了基于支持向量机的垃圾邮件过滤模型。该模型使用动态的方法构造特征词典,既能有效地不断充实垃圾邮件特征词典,又避免了由于词典过大或过小带来的一系列问题,较好地表示了邮件。(2)使用了向量空间模型对电子邮件进行向量化处理。在向量化过程中,针对中文电子邮件的特点,本文使用正向和逆向最大匹配法相结合的方法对中文电子邮件进行分词,另外,对特征项的选择、特征词权重的表示提出了改进方法。(3)使用fisher线性判别法对支持向量机的邮件过滤模型进行优化,并构造了基于高斯核和多项式核的SVM优化模型。(4)在中国教育和科研网紧急响应组公布的中文电子邮件数据集上对本文提出的过滤模型进行验证,并与贝叶斯、决策树邮件过滤器进行比较,实验结果表明本文的方法在各个方面表现优异,虚警率保持在1%左右,正确过滤率达到98.5%,超过了网易免费邮公布的98%的过滤精度。本文将目前通用有效的SVM方法运用于中文电子邮件的过滤,并结合了中文信息处理技术,使得本文提出的方法取得了良好的效果。本文不仅对电子邮件过滤方法的理论研究具有促进作用,而且所获得的成果具有直接的应用价值。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 研究背景
  • 1.1.1 全球垃圾邮件现状
  • 1.1.2 垃圾邮件的危害及对策
  • 1.2 论文的主要工作及结果
  • 1.3 论文结构
  • 第二章 邮件过滤基础知识
  • 2.1 电子邮件系统原理简介
  • 2.1.1 电子邮件的格式
  • 2.1.2 电子邮件的传输协议
  • 2.1.3 电子邮件系统的实现原理
  • 2.2 电子邮件过滤的类型
  • 2.2.1 从电子邮件体系角色结构来分
  • 2.2.2 从电子邮件执行方法来分
  • 2.3 本章小结
  • 第三章 支持向量机理论
  • 3.1 SVM简介
  • 3.1.1 线性硬间隔SVM
  • 3.1.2 线性软间隔SVM
  • 3.1.3 核映射
  • 3.2 SVM模型选择方法
  • 3.3 本章小结
  • 第四章 邮件的特征表示
  • 4.1 中文分词
  • 4.2 特征项及特征词典的选择
  • 4.3 特征项的权重
  • 4.4 本章小结
  • 第五章 基于支持向量机的邮件过滤
  • 5.1 模型设计
  • 5.1.1 邮件过滤模型
  • 5.1.2 基于内容的SVM垃圾邮件过滤模型
  • 5.2 实验数据及评价指标
  • 5.2.1 实验数据集
  • 5.2.2 评价指标
  • 5.3 数据实验及分析
  • 5.3.1 动态特征词典构建
  • 5.3.2 支持向量机核函数及参数选择
  • 5.3.3 支持向量机与其他邮件过滤方法的性能比较
  • 5.4 本章小结
  • 结论与展望
  • 参考文献
  • 发表文章目录
  • 致谢
  • 相关论文文献

    • [1].基于SVM的永磁无刷直流电机无位置传感器控制[J]. 电子产品世界 2020(01)
    • [2].基于商空间的黄金价格SVM模型预测[J]. 黄金科学技术 2020(01)
    • [3].基于主成分降维的SVM回归模型在煤与瓦斯突出预测中的应用[J]. 工业计量 2020(01)
    • [4].基于SVM的在线医疗信息服务质量关键影响因素研究[J]. 情报科学 2020(03)
    • [5].基于SVM与fMRI技术对精神分裂症的分类研究[J]. 现代计算机 2020(01)
    • [6].基于SVM算法的微博评论数据情感分析[J]. 数字通信世界 2020(01)
    • [7].基于SVM的河道洪峰水位校正预报方法[J]. 水力发电 2020(04)
    • [8].基于SVM的煤与瓦斯突出预测模型及应用[J]. 陕西煤炭 2020(02)
    • [9].基于实时电价和加权灰色关联投影的SVM电力负荷预测[J]. 电网技术 2020(04)
    • [10].基于超声波扫描和SVM的综合管廊故障诊断模型[J]. 科技与创新 2020(07)
    • [11].基于SVM理论的航空发动机飞行数据可视化建模[J]. 科技创新与应用 2020(12)
    • [12].基于SVM的固化土无侧限抗压强度模型[J]. 宁波大学学报(理工版) 2020(04)
    • [13].基于遗传算法和SVM的肝豆状核变性震颤评估方法研究[J]. 西安文理学院学报(自然科学版) 2020(03)
    • [14].基于SVM的高速公路预防性养护效果评价模型及应用[J]. 工程建设 2020(05)
    • [15].基于因子分析和SVM的网络舆情危机预警研究[J]. 重庆工商大学学报(自然科学版) 2020(05)
    • [16].基于SVM的物联网大数据有效信息过滤挖掘[J]. 河南科技 2020(26)
    • [17].基于改进SVM算法的思政教育动态预警系统研究[J]. 微型电脑应用 2020(09)
    • [18].基于SVM技术调剖(驱)潜力预测[J]. 承德石油高等专科学校学报 2019(05)
    • [19].基于海量数据的不平衡SVM增量学习的钓鱼网站检测方法[J]. 电信工程技术与标准化 2016(12)
    • [20].结合主方向和SVM的人脸表情识别[J]. 廊坊师范学院学报(自然科学版) 2016(04)
    • [21].SVM算法支持下的耕地面积退化遥感监测——以昆明市呈贡区为例[J]. 安徽农业科学 2017(01)
    • [22].矿井突水水源的SVM识别方法[J]. 辽宁工程技术大学学报(自然科学版) 2017(01)
    • [23].基于SVM算法的移动智能终端安全等级分级模型[J]. 通信技术 2017(04)
    • [24].图像视觉显著性和改进型SVM在图像分割中的研究[J]. 通讯世界 2017(08)
    • [25].一种基于决策树的SVM算法[J]. 太原学院学报(自然科学版) 2017(01)
    • [26].基于多级SVM分类的语音情感识别算法[J]. 计算机应用研究 2017(06)
    • [27].基于模糊信息粒与SVM的道路交通状态波动分析[J]. 重庆交通大学学报(自然科学版) 2017(07)
    • [28].基于SVM的上证指数预测研究[J]. 软件导刊 2017(08)
    • [29].基于集成SVM的肺部肿瘤PET/CT三模态计算机辅助诊断方法[J]. 生物医学工程研究 2017(03)
    • [30].一种基于SVM的声源定位算法[J]. 计算机技术与发展 2017(09)

    标签:;  ;  ;  ;  ;  

    基于SVM的中文电子邮件过滤方法研究
    下载Doc文档

    猜你喜欢