论文摘要
随着网络技术的飞速发展,网络已经成为人们学术交流、信息共享的主要平台。但是由于网络规模的不断扩大和分布的跨地域性等特点,使得各国对于网络信息的管理变得越来越难,造成了在这巨大的信息载体上,既包含着大量对用户有价值的信息,同时也隐藏着对社会安全和稳定造成危害的不法信息,如反动、暴力、色情等敏感性信息。因此,如何能够及时发现网络中这些具有危害信息的站点并予以约束,对社会稳定和发展具有十分重要的意义。目前,很多国家都专设了网络信息监控部门对各自的网络信息实施监视,但是一般都采用信息检索和基于数据包重组的敏感信息发现技术。信息检索通过对用户输入的关键词对Web页面匹配搜索,发现信息,但是缺少智能型,搜索精度低。基于数据包重组的敏感信息发现技术通过对数据包重组和会话重现来定位信息,但其硬件成本高,灵活性低。针对这一问题,本文采用了一种结合信息检索和Web信息抽取技术的网站敏感信息监视系统,该系统在信息检索的基础上,利用Web数据挖掘的基本思想,实现了对敏感信息的智能快速发现,其灵活性高,并有较高的查全率和查准率。本文主要开展了如下工作:1.设计并实现了基于三层架构的网站敏感信息监视系统,包括Web信息采集模块,页面信息抽取模块和信息识别报警模块,实现对站点页面上存在的敏感信息进行监督和报警,及时发现和追踪这些信息的来源。2.在对Web站点及其相关链接页面采集过程中,采用了将权威页面和敏感页面上的链接信息作为重点采集对象的采集策略。该策略通过PageRank算法为获取的每一页面进行重要度评估,根据评估值确定出权威页面,从该页面开始继续搜索,不断重复此过程,直至满足系统的停止条件为止,在一定程度上保证了对页面采集的查全率。3.在对页面特征字段分词划分的基础上,采用优化的K中心点聚类算法提高对相似页面划分的准确度,并通过优化的页面标签结构树,结合优化的Smith-Waterman算法,实现在一定程度上对页面数据区域准确划分,识别出页面的主要文本信息块。试验验证了这些算法结合的有效性。4.利用Wu-Manber算法对抽取出的文本信息块进行关键词的多模式匹配,实现对敏感信息的智能、准确和快速识别报警。最后,对本文工作进行了总结,提出系统实现中需进一步探索解决的问题。
论文目录
表目录图目录摘要ABSTRACT第一章 绪论1.1 课题研究背景及意义1.2 课题相关技术国内外研究现状1.2.1 Web页面采集技术1.2.2 Web页面信息提取技术1.2.3 敏感信息发现技术1.3 系统研究目标及内容1.4 论文结构安排1.5 本章小结第二章 课题相关算法介绍2.1 聚类算法分析2.1.1 层次聚类法—AGNES算法2.1.2 基于密度的聚类法—DBSCAN算法2.1.3 划分聚类法—K均值和K中心点算法2.2 相异度比较算法分析2.2.1 明可夫斯基距离(Minkowski)2.2.2 二次型距离(Quadratic)2.2.3 Smith-Waterman距离算法2.3 关键词匹配算法分析2.3.1 Boyer-Moore算法(BM算法)2.3.2 Wu-Manber算法2.4 本章小结第三章 网站敏感信息监视系统设计3.1 系统总体设计思想3.2 系统体系架构设计3.3 系统功能模块介绍3.3.1 信息采集模块3.3.2 信息抽取模块3.3.3 信息报警模块3.4 系统运行机制3.4.1 信息采集模块运行机制3.4.2 信息抽取模块的运行机制3.4.3 信息报警模块运行机制3.5 本章小结第四章 关键技术分析4.1 Web链接挖掘4.1.1 PageRank算法思想4.1.2 算法简单实例4.2 文本分类技术4.2.1 分词技术4.2.2 向量空间模型4.2.3 确定文档向量相似性4.2.4 系统页面文档分类基本思想4.2.5 利用K中心点聚类算法实现页面分类4.3 页面数据信息抽取4.3.1 HTML页面解析4.3.2 数据区域划分4.4 敏感信息快速匹配4.5 本章小结第五章 网站敏感信息监视系统实现5.1 系统数据库的设计5.2 网站信息采集模块实现5.2.1 单个网站页面采集5.2.2 多线程控制5.2.3 计算页面权重5.3 文本分类模块实现5.3.1 分词处理程序5.3.2 K中心点聚类算法的优化5.3.3 页面文档分类过程5.3.4 向量空间模型和聚类程序实现5.3.5 标签结构树的优化5.3.6 Smith-Waterman算法优化5.3.7 数据区域抽取5.4 信息报警模块实现5.5 重新采集的方案实现5.6 本章小结第六章 性能评测6.1 系统测试环境6.2 信息采集查全率测试6.3 信息抽取准确率测试6.4 信息报警测试6.5 本章总结结束语参考文献作者简历 攻读硕士学位期间完成的主要工作
相关论文文献
标签:信息采集论文; 信息抽取论文; 标签结构树论文; 相异度比较论文; 聚类算法论文;