文本挖掘技术在短信息过滤中的应用研究

文本挖掘技术在短信息过滤中的应用研究

论文摘要

随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式,受到众多人士的青睐。与此同时,垃圾短信日益成为困扰手机用户和通信运营商的一个难题。目前经常采用的垃圾短信过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。基于内容的过滤是当前解决垃圾短信问题的主要技术之一。为了解决垃圾短信给人们生活带来的困扰,本文将文本挖掘技术应用到手机短信业务模型上,对短信进行过滤。本文设计并模拟实现了一种基于粗糙集的KNN算法垃圾短信双过滤系统。该模型包过短信预处理、特征提取、权重计算、粗糙集属性约简以及短信分类与过滤几个主要功能模块。本文的工作主要包含下列内容:(1)分析了多种特征选取算法,通过实验比较了它们的优缺点。(2)提出了一种基于信息增益和方差的特征词的权重的计算方法,并对此方法的实现进行阐述。(3)提出一种短信双过滤方法。KNN和粗糙集约简算法结合构成一次过滤。粗糙集约简算法降低向量空间维数,减少了特征数,降低了待分类短信数据集(测试数据集)的向量空间大小,从而提高分类速度。避免因为粗糙集约简影响分类的准确度,对已过滤为垃圾短信应用KNN算法再次过滤。(4)在短信预处理过程中,奇异字处理、群发号码处理、短信内容整合和分词构成短信模型的预处理过程。(5)阐述了文本分类的评价标准,通过实验对本课题所构建的分类工具进行了评估。总结了研究成果,指出了不足并提出了改进意见。最后对文本短信分类器进行了实验评估,实验表明此工具有较高的分类准确度,达到了设计的要求。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 垃圾短信的当前的状况及危害
  • 1.2.1 垃圾短信的种类
  • 1.2.2 垃圾短信的危害
  • 1.2.3 我国垃圾短信的当前情况
  • 1.3 本论文的主要研究内容及论文的组织
  • 1.3.1 本论文的主要研究内容
  • 1.3.2 论文组织
  • 第二章 文本挖掘概述
  • 2.1 文本挖掘的基本概念
  • 2.2 文本分类的定义
  • 2.3 文本分类的一般流程
  • 2.4 文本预处理
  • 2.4.1 文本分词
  • 2.4.2 停用词过滤
  • 2.5 特征选择
  • 2.6 文本描述
  • 2.6.1 布尔模型
  • 2.6.2 空间向量模型
  • 2.6.3 概率模型
  • 2.6.4 概念模型
  • 2.7 分类方法
  • 2.7.1 支持向量机
  • 2.7.2 朴素贝叶斯算法
  • 2.7.3 基于神经网络的算法
  • 2.7.4 KNN算法
  • 2.8 本章小结
  • 第三章 短信文本分类技术的研究
  • 3.1 短信介绍
  • 3.2 短信过滤流程
  • 3.3 短信预处理
  • 3.4 短信语义模型
  • 3.5 本章小结
  • 第四章 基于特征选择的权值计算研究
  • 4.1 特征选择
  • 4.1.1 文档频率
  • 4.1.2 互信息
  • 4.1.3 信息增益
  • 4.1.4 期望交叉熵
  • 4.1.5 词条CHI统计法
  • 2统计'>4.1.6 χ2统计
  • 4.2 特征选取方法的比较
  • 4.2.1 性能指标
  • 4.2.2 实验结果与分析
  • 4.3 词语权重公式的改进
  • 4.3.1 传统tfidf公式
  • 4.3.2 特征加权
  • 4.4 结束语
  • 第五章 基于粗糙集的KNN短信分类
  • 5.1 粗糙集提出的背景及发展前景
  • 5.2 知识与知识库
  • 5.3 粗糙集的定义及其性质
  • 5.4 信息表知识表达系统与决策表
  • 5.5 连续属性的离散化
  • 5.5.1 离散化问题描述
  • 5.5.2 离散化方法
  • 5.6 信息约简
  • 5.6.1 信息约简的基本概念
  • 5.6.2 基于差别矩阵的属性约简方法
  • 5.6.3 二进制约简基本概念
  • 5.6.4 决策规则约简算法
  • 5.6.5 实例计算
  • 5.7 粗糙集与KNN的结合
  • 5.8 结束语
  • 第六章 基于粗糙集的KNN短信文本分类系统的设计与实现
  • 6.1 系统功能模块
  • 6.2 系统详细设计
  • 6.2.1 文本预处理模块
  • 6.2.2 特征向量集提取模块
  • 6.2.3 粗糙集约简模块
  • 6.2.4 分类系统模块
  • 6.3 实验评估
  • 6.4 本章小结
  • 第七章 总结与展望
  • 7.1 论文工作总结
  • 7.2 展望
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    文本挖掘技术在短信息过滤中的应用研究
    下载Doc文档

    猜你喜欢