论文摘要
随着互联网络的广泛应用,电子邮件服务已经成为人们必不可少的沟通和联系的工具,收发邮件已经成为网民使用最多的网络服务。然而,与日俱增的垃圾邮件也呈现泛滥的趋势。在每天超过十几亿的邮件之中,超过一半以上是垃圾邮件,这些垃圾邮件耗费了大量的服务器资源,同时也浪费了用户宝贵的时间进行相关的处理。更糟糕的是,在一些垃圾邮件中携带者一些计算机病毒,用户打开就会感染病毒,给网络服务提供商和用户都造成巨大的损失。因此,对于垃圾邮件的治理就显得尤为重要。目前,使用比较广泛的是垃圾邮件的过滤技术,根据邮件内容进行分类,通过文本分类的算法,从而决定该邮件是否为垃圾邮件;对于中文邮件,由于语言的特殊性,词与词之间没有明显的标记,导致中文邮件的过滤更加复杂。本文参考大量的垃圾邮件过滤方面的文献,对已有的垃圾邮件过滤技术进行分析和总结;根据BP神经网的特点:自学习能力,自组织能力,以及推理意识能力等,提出使用BP神经网作为文本分类的算法;结合ICTCLAS系统作为中文分词的工具,提高分词的精确性和稳定性;并且使用遗传算法来优化BP神经网,可以很好地解决神经网络容易陷入局部最小的问题,并且可以大大提高神经网络的学习能力;最终,通过使用以上的这些工具和算法,设计并实现一个针对中文垃圾邮件的过滤器。本文首先介绍了电子邮件的概念,以及垃圾邮件的一些相关知识;然后介绍并分析目前已有的垃圾邮件治理的一些技术;接下来介绍了垃圾邮件过滤相关的一些基本理论知识;最后,全面介绍了基于人工神经网的中文垃圾邮件过滤器的设计与实现的方案。