手机短消息不良信息过滤方法的研究与实现

手机短消息不良信息过滤方法的研究与实现

论文摘要

手机短消息在最近几年进入了爆发式的快速增长时期。然而,短消息在给用户带来极大便利的同时,也成为信息安全的重大隐患。通过短消息这一新兴的信息工具,各种色情暴力、政治谣言、反动言论、诈骗信息和非法广告的传播,已经成为影响社会稳定的重要因素之一。非法手机短消息考验着社会应对不法侵害的能力。面对这种运用现代信息技术作案的新型犯罪,如何防范和打击,对公、检、法机关乃至银行、工信等部门都是新的挑战。本文提出了基于文本内容分类的短消息分类与过滤机制,设计出改进型的基于贝叶斯算法短消息过滤模型,开发了文本短消息拦截过滤平台,给出了该模型的几个关键功能模块的具体实现,完成对短消息内容的识别和短消息的自动过滤,所做的主要工作如下:首先,依据短消息分类的特点,分析了短消息分类权重的不一致性。在正常情况下,人们最不希望将正常短消息误判为不良短消息而被过滤掉,为使希望损失最小,不但要求短消息分类的准确性要高,并且正常短消息被误判为不良短消息的权重要高于不良短消息误判为正常短消息的权重。其次,我们设计了短消息分类与过滤相关主要模块:短消息采集、中文分词、特征选取、短消息分类与过滤。最后,我们对该模型进行了测试,借鉴了文本分类和信息检索领域中的评价指标对系统平台实验结果进行了质量评价。本文设计和实现中的特点和创新性在以下三个方面。第一,提出了在短消息服务器上设计与实现短消息过滤。与一般在手机端进行短消息过滤不同,服务器端同时收到由短消息猫发送的大量相同内容的短消息,只要一条判别为垃圾短消息,那么其他的短消息也同样可判别为垃圾短消息,并把它抛弃,节省了网络流量,也克服了普通手机处理能力不强、过滤处理效率不高的缺点。第二,在中文分词模块中,采用多级哈希表数据结构来实现中文词条的快速查找,其速度比基于数据库中文词表的词条查询速度快很多,提高了中文分词的效率;在分词过程中采用了最大匹配法,提高了分词的准确度。第三,使用文档频度与词条频度相结合来进行特征选取。既体现了词条在同类文档中出现的普遍性,也体现了词条对于单个文档本身的表意能力。该方法比文档频度法更接近实际情况,能够更有效地纯化分类的特征向量。将文本分类和信息过滤技术引用到了短消息过滤平台中,实验结果证明该短消息自动过滤平台具有较好的应用前景。依据公安部、工业和信息化部、国家安全部和国务院新闻办联合发文精神,相信运用本文研究的方法,一定能够做到打击查处破获一批违法短消息案件,监控、封堵一些涉及重大敏感事件的有害公众短消息。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 课题背景
  • 1.2 不良短消息的产生机理
  • 1.3 国内外的研究现状
  • 1.3.1 国内外不良短消息防范现状
  • 1.3.2 国内外文本分类和信息过滤技术研究现状
  • 1.4 本文的主要研究工作及创新点
  • 1.4.1 主要的研究工作
  • 1.4.2 本文工作的主要创新点
  • 1.5 论文组织结构
  • 2 过滤系统的相关理论与技术实现
  • 2.1 不良短消息过滤的基本概念
  • 2.1.1 不良短消息过滤的定义
  • 2.1.2 短消息的相关特点
  • 2.1.3 不良短消息过滤的一般方法
  • 2.2 短消息文本特征的表示方法
  • 2.2.1 短消息预处理
  • 2.2.2 中文分词
  • 2.3 中文分词的实现
  • 2.4 开发平台的选择
  • 2.5 本章小结
  • 3 特征选取方法的比较与TFIDF 特征选取算法的实现
  • 3.1 特征选取算法
  • 3.1.1 TFIDF 法
  • 3.1.2 信息增益值法
  • 3.1.3 期望交叉熵
  • 3.1.4 相关信息量
  • 3.1.5 文本证据权
  • 3.2 特征选取算法的比较
  • 3.3 本文采用的特征选取算法
  • 3.4 本章小结
  • 4 不良短消息过滤模块(SMS-B-D)设计与实现
  • 4.1 文本分类的方法
  • 4.1.1 决策树
  • 4.1.2 K 近邻方法
  • 4.1.3 支持向量机
  • 4.1.4 贝叶斯方法
  • 4.2 分类算法的比较
  • 4.3 本文提出的文本分类算法
  • 4.3.1 多变量贝努利事件模型
  • 4.3.2 多项式事件模型
  • 4.3.3 基于最小风险的贝叶斯决策
  • 4.4 SMS-B-D 过滤模块的实现
  • 4.5 本章小结
  • 5 SMS-B-D 模块在 SMS-119 系统中的应用
  • 5.1 SMS-119 系统总体框架
  • 5.1.1 SMS-119 系统的体系架构
  • 5.1.2 SMS-119 系统的系统框架
  • 5.1.3 SMS-119 系统数据流程
  • 5.2 SMS-119 系统的主要功能模块
  • 5.2.1 SMS-119 系统过滤及挖掘功能
  • 5.2.2 SMS-119 系统信息调度功能
  • 5.2.3 SMS-119 系统客户端功能
  • 5.3 SMS-119 系统的应用技术及系统特点
  • 5.3.1 数据仓库及数据分区存储技术
  • 5.3.2 C/S 与 B/S 结合技术
  • 5.3.3 Oracle 分布式数据库技术
  • 5.4 本章小结
  • 6 实验结果与分析
  • 6.1 质量评价体系
  • 6.1.1 查准率
  • 6.1.2 查全率
  • 6.1.3 F 测试值
  • 6.1.4 评价指标的实际意义
  • 6.2 实验结果
  • 6.2.1 测试环境
  • 6.2.2 测试方法
  • 6.2.3 测试过程
  • 6.2.4 实验分析
  • 6.3 本章小结
  • 7 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 上海交通大学学位论文答辩决议书
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    手机短消息不良信息过滤方法的研究与实现
    下载Doc文档

    猜你喜欢