文本内容安全监管体系模型研究

论文摘要

Internet的开放性和日益增长的规模,为人们提供了自由交换信息的便捷手段。同时巨大的开放信息源也使一些恶意的和不良的(反动、色情等)内容信息趁机而入,成为用户获取有效信息的严重障碍。为保护国家安全、稳定,同时保护网络用户远离有害信息的侵扰,以及控制对这些信息的访问,有必要采取有力措施对这类信息进行监管,同时也有必要为运行Web服务的各种组织,提供对此类信息的访问加以监管的技术和服务。为此开发先进的文本内容安全监管技术是一项紧急而又重要的课题。本文通过对综合运用机器学习、模式识别、数据挖掘、知识发现、自然语言理解、中文信息处理、粗糙集理论、人工智能等学科的相关知识,通过分析各类不良信息的特征,结合文本信息处理目前研究进展,对文本特征选择方法以及相关文本处理算法进行综合分析,研究了适合不良文本信息过滤的模型及关键算法。首先,对国内不良文本过滤现状及相关过滤系统的研究进行了讨论分析,分析了基于PICS(Platform for Internet Content Selection)的内容选择,基于URL的过滤,基于特征词的过滤的优缺点,提出了智能内容过滤是文本深层次分析的必要技术,指出了文本安全过滤的应用领域。研究了处理大样本集的文本预处理技术、网页正文获取、快速词频统计算法等。其次,研究了文本处理中的文本表达技术和特征选择技术,包括Filter特征选择技术,Wrapper特征选择技术,基于粗集的特征选择技术,以及权重计算和归一化技术。指出了各种特征选择技术的优缺点,并对文本表示技术进行了实验。指出不同的过滤器需要采用适于其本身的文本表达方法。正确的归一化能够得到较好的结果。实际的样本集一般是不平衡样本,不同的过滤器对于不平衡样本集试验结果的性能差别较大。试验表明:中心向量法、支持向量机基于向量空间模型来表示文本,我们正确归一化后,和没有归一化前比较,性能有很大的提高。Naive Bayes由于采用概率模型表示文本,在标准样本集(平衡样本集)上得到了同基于向量空间模型的方法和基于支持向量机的方法相差不多的结果。但是在实际样本集(不平衡样本集)上,对于训练集,准确率比基于向量空间模型的方法和基于支持向量机的方法较差,但是在过滤未知反动样本上,准确率非常差,而基于向量空间模型的方法和基于支持向量机的方法较好。分析表明一方面由于不同反动网站的反动样本语法风格不一样,另一方面是反动样本特征空间较大,基于概率的统计方法不能反映全部特征空间分布。中心向量法和支持向量机对于平衡样本集或不平衡样本集都表现了较好的性能。第三,讨论了粗糙集的基本概念,指出了粗糙集的理论本质。研究了粗糙集属性约简算法,比较了基于区分矩阵的约简算法和基于属性重要度的约简算法,指出基于区分矩阵的约简算法在处理文本信息时是不充分的。提出了一种混合的属性约简算法,试验表明该方法在处理文本信息时是非常有效的,一方面利用常用的约简算法降低了文本维数,另一方面利用粗糙集约简算法去掉了很多冗余属性和噪音属性。第四,提出了一种粗糙集和相关过滤器相结合的针对主题特殊文本的过滤新方法,本文基于属性重要度,对文本属性进行前向选择提出了一种新的粗糙集属性约简算法,它产生几个约简,由于各约简基之间没有相同的属性,试验表明在处理文本数据时,具有更强的分类能力。整个过程分成两个阶段:首先将粗糙集理论作为前端预处理工具,实现分类数据中属性的约简过程,降低数据维数但基本上不损失有效信息,然后用统计方法作为后端处理器进一步对约简后的数据进行分类过滤,使计算量大大减少,同时提高了分类速度。通过试验结果可以看出,对未经粗糙集约简的文本属性集和经过快速约简的文本属性集比较,当约简个数m取值为3时,所选择的属性个数大大减少,基于向量空间模型的方法和基于支持向量机的方法在训练集和测试集上都达到了未经约简前的准确率。最后,开发了内容安全网关中不良文本过滤模块,设计了一个有效的不良文本过滤架构。基于多模式匹配算法,研究设计了高效的不良文本过滤引擎,并应用于安全网关和电子邮件过滤系统中。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 本论文的研究背景

1.2 本论文的结构安排

第二章研究现状

2.1 服务器端过滤和客户端过滤

2.2 主动过滤和被动过滤

2.3 基于URL的过滤和基于关键词的过滤

2.4 智能文本过滤方法

第三章内容安全过滤的应用

3.1 内容安全过滤网关

3.2 安全电子邮件过滤

3.3 安全BBS过滤

3.4 安全Chatroom过滤

3.5 搜索引擎结果过滤

3.6 元搜索引擎搜索结果过滤

3.7 客户端浏览器过滤

3.8 小结

第四章信息安全管理模型

4.1 内容安全监管体系实施框图

4.2 内容安全监管体系实施过程

第五章文本安全技术模型

第六章关键技术

6.1 多模式匹配算法

6.2 向量空间模型

6.3 特征选择的常用方法

6.4 权重计算

6.5 文本表达实验

6.5.1 文本特征选择

6.5.2 文本权重计算

6.5.3 文本向量归一化

6.5.4 相关过滤器

6.5.5 实验及结果

6.5.6 文本表达实验总结

6.6 基于粗糙集的文本特征选择实验

6.6.1 系统架构

6.6.2 属性权重计算

6.6.3 决策表构建技术

6.6.4 混合特征选择

6.6.5 实验和结果

6.7 数据挖掘

第七章内容安全系统

7.1 内容安全网关

7.1.1 系统开发的目的

7.1.2 内容安全网关架构

7.1.3 安全文本过滤模块

7.1.4 过滤引擎设计

7.1.5 安全网关过滤系统过滤器实验结果

7.2 安全电子邮件过滤系统

7.2.1 系统开发的目的

7.2.2 安全电子邮件过滤系统架构

7.2.3 快速、准确的信件内容过滤方法

7.2.4 统一处理常见汉字编码的电子邮件

7.2.5 安全电子邮件过滤系统实验结果

7.3 相关技术发展趋势

第八章总结

参考文献

感谢

学习期间发表的论文

文本内容安全监管体系模型研究

论文摘要

论文目录

相关论文文献

猜你喜欢