AntiSpam中全文分词技术的实现与应用研究

论文摘要

随着电子邮件的广泛应用，垃圾邮件作为商业广告、恶意程序或敏感内容的载体，也越来越对系统的安全和人们的生活造成了严重的威胁，反垃圾邮件问题已经成为全球性的具有重要现实意义的课题。目前，通常采用的垃圾邮件过滤技术主要可以分为两种方法：基于规则和基于统计的方法。通过设置过滤规则、黑名单等方式过滤垃圾邮件，这些方法对于垃圾邮件的过滤起到了一定的作用，但是这些方法最大的缺点在于过滤过于规则化，缺乏智能性，数据冗余和准确性的问题也比较突出。为解决这些矛盾，本文提出采用一种基于层叠隐马模型的汉语词法分析方法，将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的框架中。对减少数据的冗余和提高分词检索的查全率和查准率有明显作用。论文依次介绍了垃圾邮件的产生、发送机制、汉语词法分析、隐马尔可夫模型等技术，在此基础上主要讨论了基于层叠隐马模型的分词系统的研究设计与实现。并给出了试验测试结果分析。

论文目录

摘要

Abstract

第一章绪论

1.1 研究背景概述

1.2 论文的选题意义

1.3 课题来源及主要研究内容

1.3.1 课题的来源

1.3.2 主要研究内容

1.4 本文的结构

第二章垃圾邮件的由来及技术现状

2.1 垃圾邮件的产生

2.2 邮件协议及其漏洞

2.2.1 电子邮件的工作原理

2.2.2 SMTP协议及漏洞

2.2.3 Open Relay

2.3 垃圾邮件过滤技术的现状

2.3.1 服务器端和客户端的邮件过滤

2.3.2 基于IP地址过滤

2.3.3 基于信封和信头过滤

2.3.4 基于内容的过滤技术

2.4 本章小结

第三章汉语词法分析技术综述

3.1 汉语词法分析

3.1.1 汉语词法分析的任务

3.1.2 数据结构:词图（Word Graph）

3.1.3 词典查询与重叠词、离合词和前后缀的处理

3.1.4 不考虑未定义词的切分排歧

3.1.5 未定义词识别

3.1.6 考虑未定义词的切分排歧

3.1.7 词性标注

3.1.8 词法分析的流程

3.2 现有的汉语分词方法

第四章全文分词系统设计与算法

4.1 相关算法与原理简介

4.1.1 隐马尔可夫模型

4.1.2 Viterbi算法

4.1.3 贪心（婪）算法

4.1.4 大数定理

4.1.5 贝叶斯公式

4.1.6 动态规划

4.2 系统总体设计

4.2.1 隐马尔可夫模型在分词中的应用

4.2.2 层叠隐马模型和汉语词法分析

4.3 基于 N-最短路径方法的中文词语粗分模型

4.3.1 基本思想

4.3.2 模型求解

4.3.3 N-最短路径求解与复杂度分析

4.3.4 基于 N-最短路径的统计粗分模型

4.4 基于角色标注的嵌套未登录词识别

4.4.1 简介

4.4.2 基于角色标注的中文机构名自动识别方法

4.4.3 角色信息的自动抽取

4.4.4 自动识别的最终实现

4.5 结论

第五章全文分词系统的测试及分析

5.1 汉语自动分词的难点

5.2 分词系统性能评价

5.3 训练语料库的选择

5.4 实验与分析

5.4.1 系统集成测试

5.4.2 粗分模型测试

5.5 语料库加工的标记实例

第六章总结与展望

6.1 研究结论

6.2 研究展望

致谢

参考文献

攻读硕士学位期间发表论文情况

AntiSpam中全文分词技术的实现与应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢