论文摘要
手机短消息在最近几年进入了爆发式的快速增长时期。然而,短消息在给用户带来极大便利的同时,也成为信息安全的重大隐患。通过短消息这一新兴的信息工具,各种色情暴力、政治谣言、反动言论、诈骗信息和非法广告的传播,已经成为影响社会稳定的重要因素之一。非法手机短消息考验着社会应对不法侵害的能力。面对这种运用现代信息技术作案的新型犯罪,如何防范和打击,对公、检、法机关乃至银行、工信等部门都是新的挑战。本文提出了基于文本内容分类的短消息分类与过滤机制,设计出改进型的基于贝叶斯算法短消息过滤模型,开发了文本短消息拦截过滤平台,给出了该模型的几个关键功能模块的具体实现,完成对短消息内容的识别和短消息的自动过滤,所做的主要工作如下:首先,依据短消息分类的特点,分析了短消息分类权重的不一致性。在正常情况下,人们最不希望将正常短消息误判为不良短消息而被过滤掉,为使希望损失最小,不但要求短消息分类的准确性要高,并且正常短消息被误判为不良短消息的权重要高于不良短消息误判为正常短消息的权重。其次,我们设计了短消息分类与过滤相关主要模块:短消息采集、中文分词、特征选取、短消息分类与过滤。最后,我们对该模型进行了测试,借鉴了文本分类和信息检索领域中的评价指标对系统平台实验结果进行了质量评价。本文设计和实现中的特点和创新性在以下三个方面。第一,提出了在短消息服务器上设计与实现短消息过滤。与一般在手机端进行短消息过滤不同,服务器端同时收到由短消息猫发送的大量相同内容的短消息,只要一条判别为垃圾短消息,那么其他的短消息也同样可判别为垃圾短消息,并把它抛弃,节省了网络流量,也克服了普通手机处理能力不强、过滤处理效率不高的缺点。第二,在中文分词模块中,采用多级哈希表数据结构来实现中文词条的快速查找,其速度比基于数据库中文词表的词条查询速度快很多,提高了中文分词的效率;在分词过程中采用了最大匹配法,提高了分词的准确度。第三,使用文档频度与词条频度相结合来进行特征选取。既体现了词条在同类文档中出现的普遍性,也体现了词条对于单个文档本身的表意能力。该方法比文档频度法更接近实际情况,能够更有效地纯化分类的特征向量。将文本分类和信息过滤技术引用到了短消息过滤平台中,实验结果证明该短消息自动过滤平台具有较好的应用前景。依据公安部、工业和信息化部、国家安全部和国务院新闻办联合发文精神,相信运用本文研究的方法,一定能够做到打击查处破获一批违法短消息案件,监控、封堵一些涉及重大敏感事件的有害公众短消息。
论文目录
摘要ABSTRACT1 绪论1.1 课题背景1.2 不良短消息的产生机理1.3 国内外的研究现状1.3.1 国内外不良短消息防范现状1.3.2 国内外文本分类和信息过滤技术研究现状1.4 本文的主要研究工作及创新点1.4.1 主要的研究工作1.4.2 本文工作的主要创新点1.5 论文组织结构2 过滤系统的相关理论与技术实现2.1 不良短消息过滤的基本概念2.1.1 不良短消息过滤的定义2.1.2 短消息的相关特点2.1.3 不良短消息过滤的一般方法2.2 短消息文本特征的表示方法2.2.1 短消息预处理2.2.2 中文分词2.3 中文分词的实现2.4 开发平台的选择2.5 本章小结3 特征选取方法的比较与TFIDF 特征选取算法的实现3.1 特征选取算法3.1.1 TFIDF 法3.1.2 信息增益值法3.1.3 期望交叉熵3.1.4 相关信息量3.1.5 文本证据权3.2 特征选取算法的比较3.3 本文采用的特征选取算法3.4 本章小结4 不良短消息过滤模块(SMS-B-D)设计与实现4.1 文本分类的方法4.1.1 决策树4.1.2 K 近邻方法4.1.3 支持向量机4.1.4 贝叶斯方法4.2 分类算法的比较4.3 本文提出的文本分类算法4.3.1 多变量贝努利事件模型4.3.2 多项式事件模型4.3.3 基于最小风险的贝叶斯决策4.4 SMS-B-D 过滤模块的实现4.5 本章小结5 SMS-B-D 模块在 SMS-119 系统中的应用5.1 SMS-119 系统总体框架5.1.1 SMS-119 系统的体系架构5.1.2 SMS-119 系统的系统框架5.1.3 SMS-119 系统数据流程5.2 SMS-119 系统的主要功能模块5.2.1 SMS-119 系统过滤及挖掘功能5.2.2 SMS-119 系统信息调度功能5.2.3 SMS-119 系统客户端功能5.3 SMS-119 系统的应用技术及系统特点5.3.1 数据仓库及数据分区存储技术5.3.2 C/S 与 B/S 结合技术5.3.3 Oracle 分布式数据库技术5.4 本章小结6 实验结果与分析6.1 质量评价体系6.1.1 查准率6.1.2 查全率6.1.3 F 测试值6.1.4 评价指标的实际意义6.2 实验结果6.2.1 测试环境6.2.2 测试方法6.2.3 测试过程6.2.4 实验分析6.3 本章小结7 总结与展望参考文献致谢攻读学位期间发表的学术论文目录上海交通大学学位论文答辩决议书
相关论文文献
标签:短消息论文; 分词论文; 词条论文; 贝叶斯算法论文; 特征选取论文;