网站敏感信息监视系统设计与实现

网站敏感信息监视系统设计与实现

论文摘要

随着网络技术的飞速发展,网络已经成为人们学术交流、信息共享的主要平台。但是由于网络规模的不断扩大和分布的跨地域性等特点,使得各国对于网络信息的管理变得越来越难,造成了在这巨大的信息载体上,既包含着大量对用户有价值的信息,同时也隐藏着对社会安全和稳定造成危害的不法信息,如反动、暴力、色情等敏感性信息。因此,如何能够及时发现网络中这些具有危害信息的站点并予以约束,对社会稳定和发展具有十分重要的意义。目前,很多国家都专设了网络信息监控部门对各自的网络信息实施监视,但是一般都采用信息检索和基于数据包重组的敏感信息发现技术。信息检索通过对用户输入的关键词对Web页面匹配搜索,发现信息,但是缺少智能型,搜索精度低。基于数据包重组的敏感信息发现技术通过对数据包重组和会话重现来定位信息,但其硬件成本高,灵活性低。针对这一问题,本文采用了一种结合信息检索和Web信息抽取技术的网站敏感信息监视系统,该系统在信息检索的基础上,利用Web数据挖掘的基本思想,实现了对敏感信息的智能快速发现,其灵活性高,并有较高的查全率和查准率。本文主要开展了如下工作:1.设计并实现了基于三层架构的网站敏感信息监视系统,包括Web信息采集模块,页面信息抽取模块和信息识别报警模块,实现对站点页面上存在的敏感信息进行监督和报警,及时发现和追踪这些信息的来源。2.在对Web站点及其相关链接页面采集过程中,采用了将权威页面和敏感页面上的链接信息作为重点采集对象的采集策略。该策略通过PageRank算法为获取的每一页面进行重要度评估,根据评估值确定出权威页面,从该页面开始继续搜索,不断重复此过程,直至满足系统的停止条件为止,在一定程度上保证了对页面采集的查全率。3.在对页面特征字段分词划分的基础上,采用优化的K中心点聚类算法提高对相似页面划分的准确度,并通过优化的页面标签结构树,结合优化的Smith-Waterman算法,实现在一定程度上对页面数据区域准确划分,识别出页面的主要文本信息块。试验验证了这些算法结合的有效性。4.利用Wu-Manber算法对抽取出的文本信息块进行关键词的多模式匹配,实现对敏感信息的智能、准确和快速识别报警。最后,对本文工作进行了总结,提出系统实现中需进一步探索解决的问题。

论文目录

  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 课题相关技术国内外研究现状
  • 1.2.1 Web页面采集技术
  • 1.2.2 Web页面信息提取技术
  • 1.2.3 敏感信息发现技术
  • 1.3 系统研究目标及内容
  • 1.4 论文结构安排
  • 1.5 本章小结
  • 第二章 课题相关算法介绍
  • 2.1 聚类算法分析
  • 2.1.1 层次聚类法—AGNES算法
  • 2.1.2 基于密度的聚类法—DBSCAN算法
  • 2.1.3 划分聚类法—K均值和K中心点算法
  • 2.2 相异度比较算法分析
  • 2.2.1 明可夫斯基距离(Minkowski)
  • 2.2.2 二次型距离(Quadratic)
  • 2.2.3 Smith-Waterman距离算法
  • 2.3 关键词匹配算法分析
  • 2.3.1 Boyer-Moore算法(BM算法)
  • 2.3.2 Wu-Manber算法
  • 2.4 本章小结
  • 第三章 网站敏感信息监视系统设计
  • 3.1 系统总体设计思想
  • 3.2 系统体系架构设计
  • 3.3 系统功能模块介绍
  • 3.3.1 信息采集模块
  • 3.3.2 信息抽取模块
  • 3.3.3 信息报警模块
  • 3.4 系统运行机制
  • 3.4.1 信息采集模块运行机制
  • 3.4.2 信息抽取模块的运行机制
  • 3.4.3 信息报警模块运行机制
  • 3.5 本章小结
  • 第四章 关键技术分析
  • 4.1 Web链接挖掘
  • 4.1.1 PageRank算法思想
  • 4.1.2 算法简单实例
  • 4.2 文本分类技术
  • 4.2.1 分词技术
  • 4.2.2 向量空间模型
  • 4.2.3 确定文档向量相似性
  • 4.2.4 系统页面文档分类基本思想
  • 4.2.5 利用K中心点聚类算法实现页面分类
  • 4.3 页面数据信息抽取
  • 4.3.1 HTML页面解析
  • 4.3.2 数据区域划分
  • 4.4 敏感信息快速匹配
  • 4.5 本章小结
  • 第五章 网站敏感信息监视系统实现
  • 5.1 系统数据库的设计
  • 5.2 网站信息采集模块实现
  • 5.2.1 单个网站页面采集
  • 5.2.2 多线程控制
  • 5.2.3 计算页面权重
  • 5.3 文本分类模块实现
  • 5.3.1 分词处理程序
  • 5.3.2 K中心点聚类算法的优化
  • 5.3.3 页面文档分类过程
  • 5.3.4 向量空间模型和聚类程序实现
  • 5.3.5 标签结构树的优化
  • 5.3.6 Smith-Waterman算法优化
  • 5.3.7 数据区域抽取
  • 5.4 信息报警模块实现
  • 5.5 重新采集的方案实现
  • 5.6 本章小结
  • 第六章 性能评测
  • 6.1 系统测试环境
  • 6.2 信息采集查全率测试
  • 6.3 信息抽取准确率测试
  • 6.4 信息报警测试
  • 6.5 本章总结
  • 结束语
  • 参考文献
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    网站敏感信息监视系统设计与实现
    下载Doc文档

    猜你喜欢