互联网内容监管系统关键技术的研究

互联网内容监管系统关键技术的研究

论文题目: 互联网内容监管系统关键技术的研究

论文类型: 博士论文

论文专业: 模式识别与人工智能

作者: 代六玲

导师: 黄河燕,陈肇雄

关键词: 互联网信息污染,内容监管,多关键字匹配,关键字表达式匹配,文本分类,特征选取,支持向量机,解析优化,语义

文献来源: 南京理工大学

发表年度: 2005

论文摘要: 针对日益严重的互联网有害信息污染问题,本文对网络内容监管系统的关键技术进行深入研究。主要工作包括: (1) 提出了基于双层分析结构的主动型网络内容监管模型,采用高速的多关键字和关键字表达式匹配算法作为第一层,采用基于SVM的文本分类算法作为第二层。该模型可以同时提升系统的吞吐率和对敏感信息识别的准确率。 (2) 设计了一种高效的多关键字匹配算法:QMS。该算法通过获得尽可能大的平均跳跃距离提高了匹配效率。进而将该算法与多关键字表达式匹配的经典计数算法结合,提高了关键字表达式匹配的效率。 (3) 发现了在英文环境中表现良好的特征选取方法并不适合中文文本分类问题的事实。分析了产生差异的原因,并提出一种适合于中文环境的特征选取方法:组合特征选取方法。该方法有利于提高分类效果和加速分类器的训练。 (4) 设计了一种训练SVM的新算法:3SAO。该算法将训练SVM的原始二次规划问题分解为序贯的子问题,每个子问题包含三个拉格朗日乘子并被解析的优化,并使用一套高效直观的启发式规则来选择被优化的乘子。该算法具有很高的收敛速度。 (5) 提出一种基于知识融合的文本分类算法:语义SVM。该算法使用语义中心集代替原训练样本集作为支持向量机的训练样本,在保证分类准确率的情况下十分显著地提高了训练速度和分类速度,而且具有良好的在线学习能力。 (6) 设计并开发了一套主动型网络内容监管原型系统。测试结果表明其监管效率和对敏感信息的识别准确率都达到预期目标。

论文目录:

中文摘要

ABSTRACT

目录

1 绪论

1.1 研究背景

1.1.1 互联网的兴起

1.1.2 有害信息污染

1.2 研究现状

1.3 本文研究目标

1.4 本文的内容组织

2 互联网内容监管系统模型设计

2.1 需求分析

2.2 监管模型分析

2.2.1 被动监管模型分析

2.2.2 主动监管模型分析

2.2.3 被动模型和主动模型的应用环境

2.3 双层结构模型

2.4 小结

3 高效多关键字匹配算法研究

3.1 概述

3.2 现有多关键字匹配算法简介

3.2.1 DFSA算法

3.2.2 FS算法

3.2.3 SunWu算法

3.3 快速多关键字匹配算法:QMs

3.3.1 算法描述

3.3.1.1 预处理过程

3.3.1.2 匹配过程

3.3.1.3 复杂度分析

3.3.2 实验结果与分析

3.3.2.1 实验准备

3.3.2.2 实验结果

3.3.2.3 结果分析

3.4 关键字表达式匹配算法

3.4.1 关键字表达式匹配概述

3.4.2 计数算法

3.4.3 基于QMS的改进关键字表达式匹配算法

3.5 小结

4 中文文本分类中特征选取算法研究

4.1 概述

4.2 特征选取算法简介

4.2.1 文档频率

4.2.2 信息增益

4.2.3 CHI统计

4.2.4 互信息

4.3 效果测试与分析

4.3.1 实验设置

4.3.1.1 实验流程

4.3.1.2 文档表示

4.3.1.3 实验分类器选用

4.3.1.4 数据集

4.3.1.5 性能评价

4.3.2 实验结果

4.3.3 结果分析

4.4 组合特征选取算法

4.4.1 基本思想

4.4.2 算法描述

4.4.3 实验结果与分析

4.5 小结

5 SVM的快速训练算法研究

5.1 统计学习理论简介

5.1.1 概述

5.1.2 结构风险最小化归纳原理

5.1.3 支持向量机

5.2 现有SVM训练算法简介

5.2.1 块算法

5.2.2 工作集算法

5.3 三元序贯解析优化训练算法:3SAO

5.3.1 优化三个拉格朗日乘子

5.3.2 缓存和选择被优化乘子的机制

5.3.3 优化后的更新

5.3.4 复杂性分析

5.3.5 算法伪代码

5.4 实验结果与分析

5.5 小结

6 语义SVM及其在线学习算法

6.1 概述

6.2 语义SVM

6.2.1 算法描述

6.2.2 语义中心集的生成

6.3 语义SVM的在线学习

6.3.1 算法框架

6.3.2 基于3SAO的减量和增量学习

6.4 实验结果与分析

6.5 小结

7 原型系统的设计与实现

7.1 需求概述

7.2 总体设计与系统架构

7.3 系统集成实现

7.3.1 接口分析

7.3.2 系统流程

7.4 原型系统测试

7.5 小结

8 结束语

8.1 本文工作总结

8.2 今后研究工作

参考文献

致谢

附录

发布时间: 2005-03-14

参考文献

  • [1].面向服务的信息系统关键技术研究[D]. 裴树军.哈尔滨理工大学2012
  • [2].SIP网络中入侵检测与防御系统关键技术的研究[D]. 李鸿彬.中国科学院研究生院(沈阳计算技术研究所)2012

相关论文

  • [1].基于统计的文本分类技术研究[D]. 程军.中国科学院研究生院(文献情报中心)2003
  • [2].自动文本分类若干基本问题研究[D]. 宋枫溪.南京理工大学2004
  • [3].中文信息处理中若干关键技术的研究[D]. 王建会.复旦大学2004
  • [4].计算机网络智能诊断技术研究[D]. 戚涌.南京理工大学2004
  • [5].中文文本自动分类中的关键问题研究[D]. 薛德军.清华大学2004
  • [6].基于关键短语的文本内容标引研究[D]. 刘华.北京语言大学2005
  • [7].文本分类及其相关技术研究[D]. 李荣陆.复旦大学2005
  • [8].面向内容的网络安全监控模型及其关键技术研究[D]. 万国根.电子科技大学2005
  • [9].串匹配算法及其在网络内容分析中的应用[D]. 谭建龙.中国科学院研究生院(计算技术研究所)2003
  • [10].关于中国互联网内容管制理论研究[D]. 刘兵.北京邮电大学2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

互联网内容监管系统关键技术的研究
下载Doc文档

猜你喜欢