基于后缀树模型的流文本表示研究及其应用

基于后缀树模型的流文本表示研究及其应用

论文题目: 基于后缀树模型的流文本表示研究及其应用

论文类型: 硕士论文

论文专业: 计算机应用技术

作者: 张吉

导师: 郭莉

关键词: 流文本表示,后缀树,文本分类,垃圾邮件过滤

文献来源: 中国科学院研究生院(计算技术研究所)

发表年度: 2005

论文摘要: 随着因特网的不断普及,流数据处理逐渐受到人们的关注。相对于传统的静态数据,流数据具有高度的流动性,对实时更新的要求较高。本文面向网络信息内容分析这一背景,针对流数据处理中的流文本表示问题,考察了现有的文本表示方法,提出并实现了基于后缀树模型(STM)的流文本表示方法。该表示方法具有以下特点:利用后缀树模型动态增删的特性,支持对流文本表示进行实时更新,直接对后续操作结果产生影响;利用后缀树模型快速匹配的特性,可以实时获得表示流文本的向量,不需要进行分词以及特征提取等复杂计算;采用不定长匹配,得到合适的语言粒度,能够较好地反映文本特征;利用了上下文的位置信息,可以为后续操作提供更多的信息量;由于不需要进行分词和特征提取,该表示方法与具体语种无关。在此基础上,本文将基于后缀树的文本表示方法结合分类算法,以SpamAssassin邮件过滤平台为依托,实现了一个垃圾邮件过滤系统。该过滤系统采用通用后缀树模型(GSTM)表示训练集中的邮件,对于到达的新邮件,利用邮件内容的上下文位置信息,进行文本位置的不定长多元统计,从而获得新邮件与不同训练集的相似程度,确定邮件所属类别。理论分析和实验表明:将长度为N的新邮件加入训练集,训练时间为O(N),满足了训练集的动态变化;对长度为N的新邮件进行过滤,过滤时间为O(N);在相同语料上,该系统的准确率和召回率均达到或超过了其他基于空间向量模型的邮件过滤方法;完全独立于语种,适用于多语种邮件同时存在的情况。通过理论分析和实验验证,本文所提出的基于后缀树模型的流文本表示方法具有有效性和实用性,有助于流数据处理问题的进一步研究。

论文目录:

声 明

关于论文使用授权的说明

摘要

Abstract

第1章 引言

1.1 问题的提出

1.2 应用背景

1.3 内容安排

第2章 研究现状

2.1 概述

2.2 文档存储的数据结构

2.2.1 队列

2.2.2 AVL树

2.2.3 B树

2.2.4 散列表

2.2.5 T树

2.3 特征项粒度的选择方法

2.4 特征项筛选方法

2.4.1 类别可分离性判据

2.4.2 特征选择方法

2.5 特征项权重计算

2.6 相似度计算

第3章 基于后缀树模型的流文本表示

3.1 概述

3.2 后缀树模型(STM)

3.2.1 STM相关理论

3.2.2 STM相关算法

3.2.3 STM复杂度分析

3.3 后缀树模型的改进

3.3.1 通用后缀树模型(GSTM)

3.3.2 n-截枝后缀树模型

3.4 向量化算法

3.5 权重计算算法

3.6 相似度计算算法

第4章 基于后缀树模型的垃圾邮件过滤

4.1 概述

4.1.1 垃圾邮件的定义

4.1.2 垃圾邮件过滤与文本分类

4.2 垃圾邮件过滤方法

4.2.1 服务器端和客户端的邮件过滤

4.2.2 白名单和黑名单

4.2.3 设定过滤规则

4.2.4 基于内容的垃圾邮件过滤技术

4.3 内容过滤中的分类算法

4.3.1 近邻分类算法

4.3.2 中心向量分类算法

4.3.3 朴素贝叶斯分类算法

4.3.4 基于聚类粒度的分类算法

4.4 邮件过滤系统实现

4.4.1 Spam Assassin概述

4.4.2 Spam Assassin的设置

4.4.3 基于STM的垃圾邮件过滤部分

第5章 实验结果及分析

5.1 文本分类实验

5.1.1 实验说明

5.1.2 评价标准

5.1.3 实验语料

5.1.4 正确率结果与分析

5.2 垃圾邮件过滤实验

5.2.1 评价标准

5.2.2 实验语料

5.2.3 实验结果与分析

5.2.4 复杂度比较分析

5.3 实验总结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

作者简历

发布时间: 2006-12-26

相关论文

  • [1].基于改进的后缀树算法的中英文聚类引擎的实现[D]. 胡海龙.吉林大学2008
  • [2].文本聚类分析效果评价及文本表示研究[D]. 周昭涛.中国科学院研究生院(计算技术研究所)2005
  • [3].用加强的后缀数组查找MUM[D]. 郭海涛.西安电子科技大学2007
  • [4].基于概念的文本表示模型的研究[D]. 张剑.清华大学2006
  • [5].一种基于后缀树的包装器自动生成方法的研究[D]. 张玉良.吉林大学2005
  • [6].面向话题追踪的特征选取与文本表示技术的研究[D]. 王会珍.东北大学2005
  • [7].基于后缀树的中文文本聚类算法研究[D]. 芦立华.上海海事大学2005
  • [8].流数据中频繁模式挖掘算法的研究[D]. 贾立峰.吉林大学2006
  • [9].串匹配算法优化技术研究[D]. 刘燕兵.中国科学院研究生院(计算技术研究所)2006
  • [10].网络安全中安全审计与监控系统的设计与实现[D]. 陈亮.大庆石油学院2004

标签:;  ;  ;  ;  

基于后缀树模型的流文本表示研究及其应用
下载Doc文档

猜你喜欢