论文摘要
面向中文的短信过滤技术是中文移动市场迫切需要的一种技术。目前移动平台上的中文短信过滤技术以黑名单过滤和关键词过滤为主。本论文主要介绍了一个与当前主流中文短信过滤不同的新型过滤技术。该技术是便于在移动设备上实现,结合了中文短信的内容特征,以规则库过滤为基础的内容过滤技术。该技术提高了短信过滤准确率、垃圾短信召回率,降低了正常短信错判率。短信内容过滤是文本分类技术的一种,目前应用最广泛的文本分类技术有很多,最大熵和决策树两种算法分别作为基于统计的和基于规则的文本分类技术的代表算法大量应用于内容过滤。本文也将这两种算法与本文提出的基于轻量级规则库的内容过滤技术进行对比实验,以验证本文提出的基于轻量级规则库的内容过滤技术是否满足实际要求。本文提出的基于轻量级规则库的内容过滤技术由两部分构成:第一部分,规则匹配。规则匹配是短信内容过滤的第一阶段。在该阶段中关键词规则匹配是核心。关键词规则的匹配需要使用中文多模式字符串匹配算法。国际上经典的字符串匹配算法都是针对英文字符串进行匹配的。多模式串匹配算法也是如此,例如,AC,WM等等。本文提出一种针对中文的多模式串匹配算法UIAC。同时,与UIAC算法配合还有其他规则匹配方法:短信文本长度,文本中含有的标点,电话号码,URL等等特征。另外,在该阶段还要做手机平台上中文编码的转换等处理工作。该阶段的输出是中间向量文件。第二部分,过滤。过滤是短信过滤处理的第二阶段。本文提出了轻量级规则库过滤算法。该算法与最大熵和决策树两种经典算法相比,更加有利于在资源有限的移动设备上实现。作为对比,在规则匹配的试验阶段除了产生轻量级规则库过滤中间向量文件外还产生了最大熵中间向量文件和决策树中间向量文件,并且分别用最大熵模型和决策树模型进行处理。之后对比了轻量级规则库和其他两种算法的准确率、召回率以及正常短信误判率。实验使用的短信条数为1000条,正常短信和垃圾短信各500条。对轻量级规则库、最大熵、决策树分别进行了实验,并且将三种算法结果进行比较。实验结果显示,轻量级规则库与其它两种方法相比,性能接近,在正常短信误判率方面有较大提高,并且更便于在手机平台上实现。
论文目录
相关论文文献
- [1].内容过滤关键技术的研究[J]. 科技信息(科学教研) 2008(06)
- [2].基于内容过滤推荐的农业信息推荐模型研究[J]. 湖南农业大学学报(自然科学版) 2013(06)
- [3].基于姿态模型的图像内容过滤防火墙的研究[J]. 通信技术 2009(02)
- [4].基于内容过滤的电子商务推荐系统研究[J]. 计算机技术与发展 2009(06)
- [5].基于内容过滤的网络招聘双向推荐系统研究[J]. 软件导刊 2014(03)
- [6].浅谈基于内容过滤的数字图书馆推荐系统研究[J]. 网友世界 2013(09)
- [7].基于内容过滤的网络监控技术研究[J]. 科技创新导报 2018(14)
- [8].网页内容过滤的关键技术分析[J]. 信息与电脑(理论版) 2016(07)
- [9].多核防火墙分层内容过滤的时延分析[J]. 计算机工程与应用 2011(12)
- [10].网络服务商版权内容过滤的基本设想与实现路径[J]. 编辑之友 2018(09)
- [11].安全厂商收购忙[J]. 软件世界 2009(06)
- [12].基于内容过滤的网络信息审计系统的开发实现[J]. 现代情报 2008(05)
- [13].基于内容过滤的校园流量控制系统实现[J]. 三门峡职业技术学院学报 2009(01)
- [14].基于网页标识的图像内容过滤防火墙的研究[J]. 计算机工程与应用 2008(01)
- [15].SWIM Web防火墙的设计和实现[J]. 中国民航大学学报 2018(06)
- [16].基于内容过滤的个性化农业信息推荐模型研究[J]. 湖北农业科学 2015(16)
- [17].顺风耳[J]. 信息方略 2008(05)
- [18].混合推荐技术在Web挖掘中的研究[J]. 科技信息 2010(33)
- [19].深度包检测中的模式匹配算法研究[J]. 现代电子技术 2012(03)
- [20].一个基于内容的多层次敏感图像过滤框架[J]. 湖北第二师范学院学报 2009(02)
- [21].聚合类平台中内容过滤机制研究综述[J]. 新闻研究导刊 2019(23)
- [22].企业网络行为管理系统构建[J]. 信息网络安全 2010(05)
- [23].一种网络信息监管系统的设计与实现[J]. 微电子学与计算机 2010(10)
- [24].反垃圾邮件过滤技术方法的研究[J]. 福建电脑 2016(10)
- [25].网络背景下查询推荐技术综述[J]. 安徽电子信息职业技术学院学报 2012(04)
- [26].Web实时环境两级过滤中文文本内容自学习算法[J]. 计算机科学与探索 2011(08)
- [27].Web内容 过滤要“分层”[J]. 中国计算机用户 2009(Z1)
- [28].一种融合协同过滤和内容过滤的混合推荐方法[J]. 现代图书情报技术 2015(06)
- [29].基于依存句法的网页内容防火墙设计[J]. 计算机工程与设计 2011(05)
- [30].分布式网络信息过滤系统研究与实现[J]. 通信技术 2008(02)