论文摘要
随着电子邮件的广泛应用,垃圾邮件作为商业广告、恶意程序或敏感内容的载体,也越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的课题。目前,通常采用的垃圾邮件过滤技术主要可以分为两种方法:基于规则和基于统计的方法。通过设置过滤规则、黑名单等方式过滤垃圾邮件,这些方法对于垃圾邮件的过滤起到了一定的作用,但是这些方法最大的缺点在于过滤过于规则化,缺乏智能性,数据冗余和准确性的问题也比较突出。为解决这些矛盾,本文提出采用一种基于层叠隐马模型的汉语词法分析方法,将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的框架中。对减少数据的冗余和提高分词检索的查全率和查准率有明显作用。论文依次介绍了垃圾邮件的产生、发送机制、汉语词法分析、隐马尔可夫模型等技术,在此基础上主要讨论了基于层叠隐马模型的分词系统的研究设计与实现。并给出了试验测试结果分析。
论文目录
摘要Abstract第一章 绪论1.1 研究背景概述1.2 论文的选题意义1.3 课题来源及主要研究内容1.3.1 课题的来源1.3.2 主要研究内容1.4 本文的结构第二章 垃圾邮件的由来及技术现状2.1 垃圾邮件的产生2.2 邮件协议及其漏洞2.2.1 电子邮件的工作原理2.2.2 SMTP协议及漏洞2.2.3 Open Relay2.3 垃圾邮件过滤技术的现状2.3.1 服务器端和客户端的邮件过滤2.3.2 基于IP地址过滤2.3.3 基于信封和信头过滤2.3.4 基于内容的过滤技术2.4 本章小结第三章 汉语词法分析技术综述3.1 汉语词法分析3.1.1 汉语词法分析的任务3.1.2 数据结构:词图(Word Graph)3.1.3 词典查询与重叠词、离合词和前后缀的处理3.1.4 不考虑未定义词的切分排歧3.1.5 未定义词识别3.1.6 考虑未定义词的切分排歧3.1.7 词性标注3.1.8 词法分析的流程3.2 现有的汉语分词方法第四章 全文分词系统设计与算法4.1 相关算法与原理简介4.1.1 隐马尔可夫模型4.1.2 Viterbi算法4.1.3 贪心(婪)算法4.1.4 大数定理4.1.5 贝叶斯公式4.1.6 动态规划4.2 系统总体设计4.2.1 隐马尔可夫模型在分词中的应用4.2.2 层叠隐马模型和汉语词法分析4.3 基于 N-最短路径方法的中文词语粗分模型4.3.1 基本思想4.3.2 模型求解4.3.3 N-最短路径求解与复杂度分析4.3.4 基于 N-最短路径的统计粗分模型4.4 基于角色标注的嵌套未登录词识别4.4.1 简介4.4.2 基于角色标注的中文机构名自动识别方法4.4.3 角色信息的自动抽取4.4.4 自动识别的最终实现4.5 结论第五章 全文分词系统的测试及分析5.1 汉语自动分词的难点5.2 分词系统性能评价5.3 训练语料库的选择5.4 实验与分析5.4.1 系统集成测试5.4.2 粗分模型测试5.5 语料库加工的标记实例第六章 总结与展望6.1 研究结论6.2 研究展望致谢参考文献攻读硕士学位期间发表论文情况
相关论文文献
标签:层叠隐马模型论文; 垃圾邮件论文; 语义分析论文; 全文过滤论文;