基于内容的中文垃圾短信分类技术的研究

基于内容的中文垃圾短信分类技术的研究

论文摘要

随着移动通信技术的高速发展,手机用户的数量在飞速膨胀,由于手机短信使用简单、快捷、费用低廉,已经成为日常生活中不可或缺的通信方式之一。然而,低廉的传输代价,使得我们每天收到很多不请自来的垃圾短信,垃圾短信危害社会安全、毒害社会风气、影响用户的正常生活。规则过滤、黑—白名单和基于关键词匹配的内容扫描等技术都是目前垃圾短信过滤主流技术。为了解决垃圾短信给我们的日常生活带来的烦恼,本文首先从垃圾短信的定义、特征、产生的原因、危害及我国当前垃圾短信状况做了详细的分析和介绍,对当前短信分类技术的现状进行了概述和分析;其次介绍了3种中文分词方法、4种文本表示方法、4种特征权重赋值方法、7种特征选取方法和7种具有代表性的文本分类算法;最后在此基础上,采用了改进的贝叶斯分类方法结合黑白名单过滤机制实现对短信的过滤,进行了详细的实验论证,实验中先对短信进行分词和停用词过滤等预处理,再采用DF等特征提取方式,训练分类器,优化分类器参数后进行短信测试,详细记录实验过程,分析数据,达到了较好的分类效果,分类器同时可以根据新的训练集,训练出个性化的分类器,适应短信变化,满足用户的个性化需求。通过实验证明,改进贝叶斯算法能在正确分类短信的同时,减少了正常短信的误判率。具体地说,工作内容主要包括以下几个方面:1、介绍了多种特征选取方法,实验中采用了3种特征提取方法,考查了各选取方法的优劣;2、在现有条件下,收集了一定数量的、符合要求的中文短信库;3、在短信语料库的基础上,实现一种提高正常短信通过率的改进的贝叶斯分类模型,并使用贝叶斯分类器应用于自建的短信语料库,分析、比较它的实验性能与效果;4、分类模型可以训练出个性化的分类器,适应短信变化,满足用户的个性化需求;5、根据文本分类的评价标准,通过实验对贝叶斯分类器进行了评估,根据评估结果,设定了分类模型的各项基本参数;6、总结成果,展望未来,为将来的工作打下基础。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 本文的研究背景及意义
  • 1.2 垃圾短信知识
  • 1.2.1 短信基础知识
  • 1.2.2 垃圾短信的定义
  • 1.2.3 垃圾短信的特征
  • 1.2.4 垃圾短信产生的原因
  • 1.2.5 垃圾短信的危害及解决办法
  • 1.2.6 我国垃圾短信的当前状况
  • 1.3 垃圾短信分类技术的发展现状
  • 1.3.1 两种分类方式
  • 1.3.2 两种分类途径
  • 1.4 论文结构安排
  • 第二章 当前垃圾短信分类技术概述
  • 2.1 垃圾短信的分类方式
  • 2.2 基于关键词的分类技术
  • 2.3 基于黑白名单分类技术
  • 2.4 基于规则的分类技术
  • 2.5 基于内容的分类技术
  • 第三章 基于内容的垃圾短信分类技术
  • 3.1 文本分类技术概况
  • 3.2 文本预处理
  • 3.2.1 中文分词
  • 3.2.2 停用词过滤
  • 3.3 文本的表示
  • 3.3.1 布尔模型
  • 3.3.2 LDA生成模型
  • 3.3.3 向量空间模型(VSM)
  • 3.3.4 隐含语义索引模型(LSI)
  • 3.4 特征提取方法
  • 3.4.1 特征频度(TF)
  • 3.4.2 文档频度(DF)
  • 3.4.3 互信息(MI)
  • 3.4.4 信息增益(IG)
  • 3.4.5 期望交叉熵(ECE)
  • 3.4.6 文本证据权(WET)
  • 2统计量'>3.4.7 χ2统计量
  • 3.5 特征权重表示方法
  • 3.5.1 布尔权重
  • 3.5.2 特征项频度
  • 3.5.3 反文档频度
  • 3.5.4 联合权重
  • 3.6 文本分类算法
  • 3.6.1 常用文本分类算法
  • 3.6.2 贝叶斯文本分类方法
  • 3.7 垃圾短信分类的评估指标
  • 第四章 基于改进贝叶斯算法的垃圾短信分类
  • 4.1 改进的贝叶斯算法
  • 4.1.1 朴素贝叶斯算法
  • 4.1.2 最小风险Bayes算法
  • 4.1.3 主动学习贝叶斯算法
  • 4.1.4 改进的贝叶斯算法
  • 4.2 短信预处理
  • 4.2.1 必要性分析
  • 4.2.2 实施方法
  • 4.2.3 短信分词
  • 4.2.4 短信表示
  • 4.2.5 特征选择
  • 4.3 短信分类模型
  • 4.4 实验部分
  • 4.4.1 实验数据介绍
  • 4.4.2 实验评价标准
  • 4.4.3 系统功能模块
  • 4.4.4 系统详细设计
  • 4.4.5 实验过程及实验结果
  • 4.4.6 实验结果分析
  • 4.4.7 分类器的个性化训练
  • 4.4.8 分类器结合黑白名单过滤机制
  • 4.4.9 不同参数的分类器训练及测试结果分析
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 致谢
  • 个人简历及攻读学位期间的成果
  • 相关论文文献

    • [1].基于人工智能的磁芯产品缺陷检测与分类技术[J]. 电子技术与软件工程 2020(06)
    • [2].常见白细胞五分类技术简介[J]. 中国卫生产业 2012(03)
    • [3].数据挖掘分类技术研究与分析[J]. 现代电子技术 2010(20)
    • [4].中国医疗器械分类技术委员会工作机制探究[J]. 中国药事 2017(09)
    • [5].流量分类技术精细管理网络[J]. 中国教育网络 2012(02)
    • [6].血细胞五分类技术及其应用进展[J]. 医疗卫生装备 2009(06)
    • [7].图像场景分类技术综述[J]. 电子学报 2019(04)
    • [8].面向开放域问答的问题分类技术研究进展[J]. 电子学报 2015(08)
    • [9].基于投影寻踪分类技术的各地区吸纳就业能力综合评价[J]. 社会保障研究 2013(05)
    • [10].基于关键词的Flash分类技术研究[J]. 中小学电教(下) 2011(01)
    • [11].微博中的社交意图识别与分类技术研究[J]. 内蒙古科技大学学报 2020(02)
    • [12].白灵菇分类技术研究进展[J]. 安徽农业科学 2009(01)
    • [13].音频分类技术在广播质量评估中的应用浅析[J]. 电子制作 2015(14)
    • [14].分类技术在数据挖掘中的应用研究[J]. 科技信息 2010(24)
    • [15].P2P服务分类技术的负载平衡策略研究[J]. 计算机应用 2008(01)
    • [16].数据挖掘分类技术在高校教学中的应用[J]. 电脑知识与技术 2009(24)
    • [17].基于分类技术的目标客户辅助定位方法研究[J]. 江苏通信 2008(03)
    • [18].数据流分类技术分析[J]. 计算机与现代化 2010(01)
    • [19].音频分类技术在广播质量评估中的应用[J]. 广播与电视技术 2010(10)
    • [20].波形分类技术在储层沉积微相预测中的应用[J]. 石油物探 2008(03)
    • [21].局部放电脉冲波形特征提取及分类技术[J]. 中国电机工程学报 2013(28)
    • [22].中医诊断模型构建中的两种常用数据挖掘分类技术[J]. 数理医药学杂志 2013(05)
    • [23].波形分类技术及在WZ油田中的应用[J]. 内江科技 2012(01)
    • [24].食品安全大数据的融合及分类技术综述[J]. 计算机技术与发展 2020(02)
    • [25].基于监督学习的中文情感分类技术比较研究[J]. 散文百家 2018(08)
    • [26].基于DDAG-SVM的网络流量分类技术[J]. 数学的实践与认识 2013(08)
    • [27].网络流量分类方法研究[J]. 信息通信 2017(08)
    • [28].基于文本倾向性分类技术的图书评价模型[J]. 昆明理工大学学报(理工版) 2009(04)
    • [29].遥感数据计算机分类在土地调查中的应用[J]. 数字技术与应用 2016(05)
    • [30].自动数字图像分类技术的应用领域研究[J]. 智富时代 2018(09)

    标签:;  ;  ;  ;  

    基于内容的中文垃圾短信分类技术的研究
    下载Doc文档

    猜你喜欢