移动平台下的中文短信内容过滤技术的研究与实现

移动平台下的中文短信内容过滤技术的研究与实现

论文摘要

面向中文的短信过滤技术是中文移动市场迫切需要的一种技术。目前移动平台上的中文短信过滤技术以黑名单过滤和关键词过滤为主。本论文主要介绍了一个与当前主流中文短信过滤不同的新型过滤技术。该技术是便于在移动设备上实现,结合了中文短信的内容特征,以规则库过滤为基础的内容过滤技术。该技术提高了短信过滤准确率、垃圾短信召回率,降低了正常短信错判率。短信内容过滤是文本分类技术的一种,目前应用最广泛的文本分类技术有很多,最大熵和决策树两种算法分别作为基于统计的和基于规则的文本分类技术的代表算法大量应用于内容过滤。本文也将这两种算法与本文提出的基于轻量级规则库的内容过滤技术进行对比实验,以验证本文提出的基于轻量级规则库的内容过滤技术是否满足实际要求。本文提出的基于轻量级规则库的内容过滤技术由两部分构成:第一部分,规则匹配。规则匹配是短信内容过滤的第一阶段。在该阶段中关键词规则匹配是核心。关键词规则的匹配需要使用中文多模式字符串匹配算法。国际上经典的字符串匹配算法都是针对英文字符串进行匹配的。多模式串匹配算法也是如此,例如,AC,WM等等。本文提出一种针对中文的多模式串匹配算法UIAC。同时,与UIAC算法配合还有其他规则匹配方法:短信文本长度,文本中含有的标点,电话号码,URL等等特征。另外,在该阶段还要做手机平台上中文编码的转换等处理工作。该阶段的输出是中间向量文件。第二部分,过滤。过滤是短信过滤处理的第二阶段。本文提出了轻量级规则库过滤算法。该算法与最大熵和决策树两种经典算法相比,更加有利于在资源有限的移动设备上实现。作为对比,在规则匹配的试验阶段除了产生轻量级规则库过滤中间向量文件外还产生了最大熵中间向量文件和决策树中间向量文件,并且分别用最大熵模型和决策树模型进行处理。之后对比了轻量级规则库和其他两种算法的准确率、召回率以及正常短信误判率。实验使用的短信条数为1000条,正常短信和垃圾短信各500条。对轻量级规则库、最大熵、决策树分别进行了实验,并且将三种算法结果进行比较。实验结果显示,轻量级规则库与其它两种方法相比,性能接近,在正常短信误判率方面有较大提高,并且更便于在手机平台上实现。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 论文的研究背景
  • 1.1.1 短信服务的发展
  • 1.1.2 遏制垃圾短信的技术手段
  • 1.2 论文的研究内容及组织
  • 1.2.1 论文的内容及组织
  • 1.2.2 课题中所做工作介绍
  • 第二章 短信内容过滤技术综述
  • 2.1 本章概述
  • 2.2 多模式串匹配技术
  • 2.2.1 单模式匹配
  • 2.2.2 多模式匹配
  • 2.2.3 多模式串匹配的一些基本概念
  • 2.3 过滤技术简介
  • 2.3.1 决策树模型
  • 2.3.2 最大熵模型
  • 2.3.3 轻量级规则库的设计
  • 2.4 本章总结
  • 第三章 短信过滤系统规则匹配算法
  • 3.1 本章概述
  • 3.2 KMP 算法
  • 3.3 Aho-Corasick 多模式串匹配算法
  • 3.4 UIAC 算法
  • 3.4.1 UIAC 主要思想
  • 3.4.2 预处理
  • 3.4.3 UIAC 搜索过程
  • 3.5 其他规则匹配算法
  • 3.5.1 高危标点匹配
  • 3.5.2 普通多个标点符号的匹配
  • 3.5.3 短信长度的匹配
  • 3.5.4 电话号码的匹配
  • 3.5.5 网址的匹配
  • 3.5.6 回复模式的匹配
  • 3.6 各规则对轻量级规则库过滤的影响分析
  • 3.6.1 规则影响因子预估
  • 3.6.2 规则影响因子修正
  • 3.7 本章总结
  • 第四章 短信过滤系统的研究与实现
  • 4.1 短信过滤系统开发系统的配置
  • 4.1.1 Symbian 操作系统及开发环境简介
  • 4.1.2 Series 60 C++软件开发包
  • 4.2 系统架构设计
  • 4.3 短信监视模块
  • 4.4 黑名单过滤模块
  • 4.5 轻量级规则库过滤模块
  • 4.5.1 中文关键词匹配过滤算法的设计和实现
  • 4.6 本章总结
  • 第五章 短信过滤方法在PC 平台上的模拟
  • 5.1 概述
  • 5.2 实验设计和实验结果分析
  • 5.2.1 实验目的
  • 5.2.2 实验语料准备
  • 5.2.3 实验第一阶段:规则匹配实验
  • 5.2.4 实验第二阶段:过滤实验
  • 5.2.5 实验结果分析
  • 5.3 PC 平台模拟实验总结
  • 第六章 结论
  • 6.1 论文的主要工作
  • 6.2 未来工作展望
  • 参考文献
  • 致谢
  • 攻硕期间取得的研究成果
  • 相关论文文献

    • [1].内容过滤关键技术的研究[J]. 科技信息(科学教研) 2008(06)
    • [2].基于内容过滤推荐的农业信息推荐模型研究[J]. 湖南农业大学学报(自然科学版) 2013(06)
    • [3].基于姿态模型的图像内容过滤防火墙的研究[J]. 通信技术 2009(02)
    • [4].基于内容过滤的电子商务推荐系统研究[J]. 计算机技术与发展 2009(06)
    • [5].基于内容过滤的网络招聘双向推荐系统研究[J]. 软件导刊 2014(03)
    • [6].浅谈基于内容过滤的数字图书馆推荐系统研究[J]. 网友世界 2013(09)
    • [7].基于内容过滤的网络监控技术研究[J]. 科技创新导报 2018(14)
    • [8].网页内容过滤的关键技术分析[J]. 信息与电脑(理论版) 2016(07)
    • [9].多核防火墙分层内容过滤的时延分析[J]. 计算机工程与应用 2011(12)
    • [10].网络服务商版权内容过滤的基本设想与实现路径[J]. 编辑之友 2018(09)
    • [11].安全厂商收购忙[J]. 软件世界 2009(06)
    • [12].基于内容过滤的网络信息审计系统的开发实现[J]. 现代情报 2008(05)
    • [13].基于内容过滤的校园流量控制系统实现[J]. 三门峡职业技术学院学报 2009(01)
    • [14].基于网页标识的图像内容过滤防火墙的研究[J]. 计算机工程与应用 2008(01)
    • [15].SWIM Web防火墙的设计和实现[J]. 中国民航大学学报 2018(06)
    • [16].基于内容过滤的个性化农业信息推荐模型研究[J]. 湖北农业科学 2015(16)
    • [17].顺风耳[J]. 信息方略 2008(05)
    • [18].混合推荐技术在Web挖掘中的研究[J]. 科技信息 2010(33)
    • [19].深度包检测中的模式匹配算法研究[J]. 现代电子技术 2012(03)
    • [20].一个基于内容的多层次敏感图像过滤框架[J]. 湖北第二师范学院学报 2009(02)
    • [21].聚合类平台中内容过滤机制研究综述[J]. 新闻研究导刊 2019(23)
    • [22].企业网络行为管理系统构建[J]. 信息网络安全 2010(05)
    • [23].一种网络信息监管系统的设计与实现[J]. 微电子学与计算机 2010(10)
    • [24].反垃圾邮件过滤技术方法的研究[J]. 福建电脑 2016(10)
    • [25].网络背景下查询推荐技术综述[J]. 安徽电子信息职业技术学院学报 2012(04)
    • [26].Web实时环境两级过滤中文文本内容自学习算法[J]. 计算机科学与探索 2011(08)
    • [27].Web内容 过滤要“分层”[J]. 中国计算机用户 2009(Z1)
    • [28].一种融合协同过滤和内容过滤的混合推荐方法[J]. 现代图书情报技术 2015(06)
    • [29].基于依存句法的网页内容防火墙设计[J]. 计算机工程与设计 2011(05)
    • [30].分布式网络信息过滤系统研究与实现[J]. 通信技术 2008(02)

    标签:;  ;  ;  ;  ;  

    移动平台下的中文短信内容过滤技术的研究与实现
    下载Doc文档

    猜你喜欢