面向海量邮件的检索系统研究与实现

面向海量邮件的检索系统研究与实现

论文摘要

随着计算机的不断发展和网络的普及,电子邮件作为Internet的重要应用,以其方便、快捷的特性而深受广大网络用户的欢迎。不论是个人、企业、政府甚至包括军方等,都在通过电子邮件来进行日常生活和工作上的联系。然而,非法商家和不法分子利用电子邮件推送广告、病毒、不健康图文以及破坏国家安定团结的非法信息,对个人、企业和国家造成不同程度的安全隐患。现有的比较成熟的技术是邮件过滤,它能屏蔽一些垃圾信息,但不能阻止那些利用网络伪造的破坏国家安全的信息随处传播。如何在浩瀚的信息海洋检索到一些敏感信息,从而追踪到可疑邮件以及可疑用户成为现代信息安全的一个方向。因此迫切需要对海量邮件进行有效的管理和安全监控。针对此问题,本文分析了邮件的文档特性及其格式,提出并设计了一个面向海量邮件的检索系统。该系统能高效地检索到用户感兴趣的邮件正文,收件人发件人等信息,从而有效地解决邮件信息的监控管理。为了提高海量邮件的处理效率,本文重点研究了分布式解析,索引及查询过程。首先介绍了邮件这一特殊文档的相关理论背景,分析了邮件格式和邮件文档的向量空间模型。接着,邮件索引采用传统的倒排索引文档。同时,与普通的检索系统不同,本系统实现了增量式索引,有效节省了索引更新的时间。在系统架构上,为了快速处理海量规模邮件文档数据,本文采用了分布式处理技术。在邮件的前期处理,系统实现了相关的分布式算法,使得多节点并行运行同一任务,从而快速地完成邮件解析与索引;在查询过程中,分布式技术确保了检索的快速稳定。论文最后给出了系统的测试结果,比较了单机系统与分布式系统的解析、索引速度的差距,并得出检索时间主要与邮件规模、查询复杂度相关的结论。系统实现了海量邮件的解析、索引、查询等一系列用户操作,并把这些操作有效地和分布式并行等关键技术结合在一起。系统采用倒排索引技术来存储和组织邮件索引,利用邮件向量空间模型计算查询与文档之间的相似度,使最终返回的结果最大程度上满足用户的查询需求。同时,系统提供了统一的接口和方法,为海量邮件信息处理的应用提供了良好的计算能力和应用开发环境。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 选题背景和研究意义
  • 1.2 海量邮件检索研究现状
  • 1.2.1 信息检索概述
  • 1.2.2 海量邮件检索现状
  • 1.2.3 信息检索系统评价
  • 1.3 本文的主要研究内容与结构
  • 第2章 邮件检索模型及相关技术研究
  • 2.1 邮件检索模型
  • 2.1.1 信息检索模型
  • 2.1.2 基于VSM的邮件检索模型
  • 2.2 面向MIME格式的邮件信息提取
  • 2.2.1 MIME邮件格式概述
  • 2.2.2 邮件信息提取
  • 2.3 增量式倒排索引
  • 2.3.1 倒排索引
  • 2.3.2 索引的增量化处理
  • 2.4 本章小结
  • 第3章 基于MapReduce的分布式邮件检索方法
  • 3.1 分布式系统技术
  • 3.2 基于文献集分割的分布式信息检索
  • 3.3 基于MapReduce 的邮件分布式索引
  • 3.3.1 分布式计算
  • 3.3.2 MapReduce编程模型
  • 3.3.3 邮件分布式处理框架
  • 3.3.4 分布式邮件数据流
  • 3.4 分布式邮件查询
  • 3.5 本章小结
  • 第4章 面向海量邮件的检索系统的实现
  • 4.1 系统结构
  • 4.2 底层分布式系统
  • 4.3 海量邮件解析
  • 4.3.1 基于JavaMail的邮件解析
  • 4.3.2 分布式解析算法
  • 4.4 面向实时系统的可扩展邮件索引
  • 4.4.1 基于邮件域的邮件索引
  • 4.4.2 分布式索引算法
  • 4.4.3 增量式索引
  • 4.5 邮件查询及结果反馈
  • 4.5.1 节点容错方案的实现
  • 4.5.2 查询结果反馈
  • 4.6 本章小结
  • 第5章 系统实验与分析
  • 5.1 测试环境
  • 5.2 测试数据集
  • 5.3 解析与索引测试
  • 5.3.1 与单机系统对比测试
  • 5.3.2 与其他分布式系统对比
  • 5.4 查询测试
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向海量邮件的检索系统研究与实现
    下载Doc文档

    猜你喜欢