基于WordNet概念向量空间模型的电子邮件分类方法的研究与实现

基于WordNet概念向量空间模型的电子邮件分类方法的研究与实现

论文摘要

随着计算机技术、信息化程度的日益提高,尤其是互联网的日益普及,电子邮件因其快捷、经济等特点而逐渐成为人们普遍采用的一种通信手段。正因如此,电子邮件往往反映出社会当前的热点问题和公众的舆论焦点。然而电子邮件使用的越来越频繁,垃圾邮件、广告、群发消息等的泛滥,使得用户花费在处理邮件上的时间增多,也影响了人们对信息的整理和获取。倘若能将电子邮件进行分类,那么人们就可以准确、全面、迅速地获取到自己关心的内容,大大提高了工作效率,从而减少了人力、财力、物力等方面的损失。因此,电子邮件分类引起了许多学者的研究兴趣。现有的电子邮件分类技术可以分为基于统计、基于连结和基于规则的三种方法。常用的基于统计的方法有Naive Bayes、KNN、类中心向量、回归模型、支持向量机、最大熵模型等。常用的基于连结的方法是人工神经网络。常用的基于规则的方法有决策树、关联规则等。这些分类方法存在一个共同的问题:都不考虑邮件文本中词与词之间的语义关系,然而现实的邮件文本中的用词往往是有关联的,比如:同义词、同义词集合间的上下位关系等,不考虑邮件文本中词与词之间的语义关系往往会出现向量空间的高维性,其结果是高维性会造成分类性能和分类精度的降低。为解决上述问题,本文提出了一种特征提取方法,即以WordNet本体库为基础,以同义词集合来代替词条,同时考虑同义词集合间的上下位关系,建立邮件文本的概念空间向量模型作为邮件文本的特征向量,使得在训练过程中能够提取出能作为类别特征的高层次信息。本文还设计了一种确定阀值的方法(百分比阀值确定法),可以通过调整阀值来满足不同的查全率和查准率。最后本文将提出的方法付诸实现,并通过试验证明了基于WordNet概念向量空间模型的电子邮件分类方法的有效性。本文提出的基于WordNet概念向量空间模型的电子邮件分类方法对现有的电子邮件分类方法进行了改进,并在分类性能和效率上获得了提升。这些结果使能够快速准确的获取有用的信息,从而大大提高了人们的工作效率。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1. 研究背景
  • 1.2. 电子邮件分类的概念及研究现状
  • 1.2.1. 电子邮件分类的概念
  • 1.2.2. 电子邮件分类研究现状
  • 1.2.2.1. 国际研究现状
  • 1.2.2.2. 国内研究现状
  • 1.3. 本文研究内容
  • 1.4. 本文组织结构
  • 1.5. 本章小结
  • 第2章 电子邮件分类概述
  • 2.1. 电子邮件的格式
  • 2.2. 电子邮件的表示
  • 2.2.1. 布尔模型
  • 2.2.2. 向量空间模型
  • 2.3. 特征选择与提取
  • 2.3.1. 文档频率法
  • 2.3.2. 互信息
  • 2.3.3. TF-IDF方法
  • 2.4. 分类方法
  • 2.4.1. 朴素贝叶斯方法
  • 2.4.2. 支持向量机
  • 2.4.3. 神经网络
  • 2.4.4. 决策树
  • 2.5. WordNet
  • 2.5.1. 词网WordNet的概况
  • 2.5.2. 词汇的矩阵模型
  • 2.5.3. WordNet中的关系
  • 2.6. 分类的性能评价
  • 2.6.1. 查全率
  • 2.6.2. 查准率
  • 1值和BEP'>2.6.3. F1值和BEP
  • 2.6.4. 宏平均和微平均
  • 2.7. 本章小结
  • 第3章 基于概念向量空间模型的电子邮件分类方法
  • 3.1. 电子邮件分类流程
  • 3.2. 电子邮件预处理
  • 3.2.1. 电子邮件解码器
  • 3.2.2. 中文分词器
  • 3.3. 邮件概念向量空间的生成
  • 3.3.1. 表示内容的概念链生成模块
  • 3.3.2. 概念链的权值修正模块
  • 3.4. 分类方法
  • 3.4.1. 改进的简单向量距离分类方法
  • 3.4.2. 阀值的确定
  • 3.5. 本章小结
  • 第4章 基于概念向量空间模型的电子邮件分类系统的设计与实现
  • 4.1. 系统任务
  • 4.2. 系统总体框架结构
  • 4.3. 邮件预处理
  • 4.3.1. 邮件解码器的实现
  • 4.3.1.1. 解码流程
  • 4.3.1.2. 邮件头field结构
  • 4.3.1.3. 邮件解码算法
  • 4.3.2. 邮件分词模块的实现
  • 4.4. 特征向量空间的形成
  • 4.4.1. 表示邮件内容的概念链生成模块
  • 4.4.2. 概念链的权值修正模块
  • 4.5. 改进的简单向量距离算法的实现
  • 4.6. 实验结果与结论
  • 4.6.1. 实验数据
  • 4.6.2. 实验结果及分析
  • 4.6.2.1. 概念VSM与传统VSM分类方法的性能比较
  • 4.6.2.2. 概念VSM分类方法与贝叶斯、KNN的性能比较
  • 4.6.2.3. 训练样本的规模大小对于分类性能的影响
  • 4.6.2.4. 调整阀值对测试结果的影响
  • 4.7. 本章小结
  • 第5章 总结与展望
  • 5.1. 本文工作总结
  • 5.2. 进一步工作展望
  • 附录
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].改进支持向量机的电子邮件分类[J]. 现代电子技术 2017(01)
    • [2].基于基本显露模式的电子邮件分类与过滤技术[J]. 南京大学学报(自然科学版) 2008(05)
    • [3].基于粗糙集理论的双向垃圾邮件分类模型的研究[J]. 计算机工程与科学 2008(10)
    • [4].基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型[J]. 计算机应用 2009(03)
    • [5].基于神经网络的邮件分类识别模型研究[J]. 南华大学学报(自然科学版) 2008(02)
    • [6].危险理论在电子邮件分类中的应用[J]. 华中师范大学学报(自然科学版) 2010(01)
    • [7].支持向量机在电子邮件分类中的应用研究[J]. 计算机仿真 2011(08)
    • [8].模糊决策树算法在邮件分类中的应用[J]. 科技通报 2012(06)
    • [9].基于朴素贝叶斯的垃圾邮件分类系统的设计[J]. 盐城工学院学报(自然科学版) 2008(02)
    • [10].基于概念向量空间模型的电子邮件分类[J]. 计算机应用 2008(12)
    • [11].基于概率神经网络的垃圾邮件分类[J]. 计算机与现代化 2008(01)
    • [12].垃圾邮件分类技术对比研究[J]. 信息网络安全 2014(02)
    • [13].基于颜色和边缘特征直方图的图像型垃圾邮件分类模型[J]. 计算机应用研究 2010(07)
    • [14].邮件分类[J]. 科学中国人 2016(26)
    • [15].粗糙集与决策树在电子邮件分类与过滤中的应用[J]. 计算机工程与应用 2009(16)
    • [16].Exchange 2010邮件分类管理技巧[J]. 网络与信息 2010(11)
    • [17].基于改进TFIDF算法的邮件分类技术[J]. 计算机技术与发展 2018(08)
    • [18].基于Hadoop平台的电子邮件分类[J]. 电脑知识与技术 2014(34)
    • [19].贝页斯垃圾邮件分类系统成本参数调整对系统精度的影响[J]. 北京理工大学学报 2019(02)
    • [20].贝叶斯邮件分类中概念漂移问题研究[J]. 计算机应用与软件 2011(09)
    • [21].基于Skip-gram的CNNs文本邮件分类模型[J]. 计算机技术与发展 2019(06)
    • [22].基于MapReduce并行SVM的垃圾邮件分类[J]. 软件导刊 2016(06)
    • [23].个性化邮件分类系统的设计分析[J]. 信息与电脑(理论版) 2013(20)
    • [24].云环境下NB算法的垃圾邮件过滤研究[J]. 微电子学与计算机 2018(08)
    • [25].基于关联规则的垃圾邮件分类模型[J]. 计算机应用与软件 2015(08)
    • [26].统计学理论在邮件分类中的应用研究[J]. 计算机技术与发展 2008(12)
    • [27].利用遗传算法优化的支持向量机垃圾邮件分类[J]. 计算机应用 2009(10)
    • [28].基于改进堆叠自动编码机的垃圾邮件分类[J]. 计算机应用 2016(01)
    • [29].基于动态特征库的电子邮件分类的研究[J]. 计算机与现代化 2012(07)
    • [30].人工免疫系统中参数对算法性能的影响分析[J]. 焦作师范高等专科学校学报 2008(04)

    标签:;  ;  ;  

    基于WordNet概念向量空间模型的电子邮件分类方法的研究与实现
    下载Doc文档

    猜你喜欢