论文摘要
随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式,受到众多人士的青睐。与此同时,垃圾短信日益成为困扰手机用户和通信运营商的一个难题。目前经常采用的垃圾短信过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。基于内容的过滤是当前解决垃圾短信问题的主要技术之一。为了解决垃圾短信给人们生活带来的困扰,本文将文本挖掘技术应用到手机短信业务模型上,对短信进行过滤。本文设计并模拟实现了一种基于粗糙集的KNN算法垃圾短信双过滤系统。该模型包过短信预处理、特征提取、权重计算、粗糙集属性约简以及短信分类与过滤几个主要功能模块。本文的工作主要包含下列内容:(1)分析了多种特征选取算法,通过实验比较了它们的优缺点。(2)提出了一种基于信息增益和方差的特征词的权重的计算方法,并对此方法的实现进行阐述。(3)提出一种短信双过滤方法。KNN和粗糙集约简算法结合构成一次过滤。粗糙集约简算法降低向量空间维数,减少了特征数,降低了待分类短信数据集(测试数据集)的向量空间大小,从而提高分类速度。避免因为粗糙集约简影响分类的准确度,对已过滤为垃圾短信应用KNN算法再次过滤。(4)在短信预处理过程中,奇异字处理、群发号码处理、短信内容整合和分词构成短信模型的预处理过程。(5)阐述了文本分类的评价标准,通过实验对本课题所构建的分类工具进行了评估。总结了研究成果,指出了不足并提出了改进意见。最后对文本短信分类器进行了实验评估,实验表明此工具有较高的分类准确度,达到了设计的要求。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景及意义1.2 垃圾短信的当前的状况及危害1.2.1 垃圾短信的种类1.2.2 垃圾短信的危害1.2.3 我国垃圾短信的当前情况1.3 本论文的主要研究内容及论文的组织1.3.1 本论文的主要研究内容1.3.2 论文组织第二章 文本挖掘概述2.1 文本挖掘的基本概念2.2 文本分类的定义2.3 文本分类的一般流程2.4 文本预处理2.4.1 文本分词2.4.2 停用词过滤2.5 特征选择2.6 文本描述2.6.1 布尔模型2.6.2 空间向量模型2.6.3 概率模型2.6.4 概念模型2.7 分类方法2.7.1 支持向量机2.7.2 朴素贝叶斯算法2.7.3 基于神经网络的算法2.7.4 KNN算法2.8 本章小结第三章 短信文本分类技术的研究3.1 短信介绍3.2 短信过滤流程3.3 短信预处理3.4 短信语义模型3.5 本章小结第四章 基于特征选择的权值计算研究4.1 特征选择4.1.1 文档频率4.1.2 互信息4.1.3 信息增益4.1.4 期望交叉熵4.1.5 词条CHI统计法2统计'>4.1.6 χ2统计4.2 特征选取方法的比较4.2.1 性能指标4.2.2 实验结果与分析4.3 词语权重公式的改进4.3.1 传统tfidf公式4.3.2 特征加权4.4 结束语第五章 基于粗糙集的KNN短信分类5.1 粗糙集提出的背景及发展前景5.2 知识与知识库5.3 粗糙集的定义及其性质5.4 信息表知识表达系统与决策表5.5 连续属性的离散化5.5.1 离散化问题描述5.5.2 离散化方法5.6 信息约简5.6.1 信息约简的基本概念5.6.2 基于差别矩阵的属性约简方法5.6.3 二进制约简基本概念5.6.4 决策规则约简算法5.6.5 实例计算5.7 粗糙集与KNN的结合5.8 结束语第六章 基于粗糙集的KNN短信文本分类系统的设计与实现6.1 系统功能模块6.2 系统详细设计6.2.1 文本预处理模块6.2.2 特征向量集提取模块6.2.3 粗糙集约简模块6.2.4 分类系统模块6.3 实验评估6.4 本章小结第七章 总结与展望7.1 论文工作总结7.2 展望致谢参考文献攻读学位期间的研究成果
相关论文文献
标签:双过滤论文; 短信论文; 分类论文; 粗糙集论文;