高校数字化校园Web信息过滤的研究

高校数字化校园Web信息过滤的研究

论文摘要

最近几年,国内外环境变化日渐复杂,各种敌对势力利用校园网不断进行渗透,使得国家对网络信息的监控更为严格,对敏感信息的响应更为迅速,高校信息安全面临着新的挑战。现在,公安部、网监处、教育部门等已将高校校园网信息安全列为高校校园安全工作的重点之一,要求各级单位高度重视并做好信息安全管理工作,其影响就如高压线一般,无法触碰。因此,研究高校数字化校园Web敏感信息过滤具有重要的现实意义。目前,众多IT技术厂商都开发出了针对互联网的信息安全监控系统,此类系统技术先进,功能多、强大,但针对性不强,部署过程耗时费劲,操作繁琐复杂,往往还需要另行购买指定或附带的价格高昂的硬件设备,他们的做法大多是针对网络层中网络数据包的拦截,截获HTTP的应答数据报,然后对截获的数据报进行解析,经过第一层的IP地址过滤后,再对内容进行过滤。IT厂商在互联网普遍情况的基础上所研发出来的产品多数具有普遍性,即在功能上要多,过滤上要全面等。但实则上,校园网应用服务通常以主动服务居多,数据源相对简单,过多的功能、过滤的全面反而会导致整体的用户体验下降、功能得不到合理利用。同时高校科研经费紧张,建设节约型校园是目前大多数高校提倡的发展思路。在这样的背景下来购买厂商研发的这些监控系统显然不够合理,一是性价比不高,二是这些监控系统的普片性未必一定适合或满足高校信息安全管理的特定需求,这样必然会导致从设备到功能再到金钱上的极大浪费。本文从高校信息安全应由高校自身来主导这一观点出发,针对目前高校数字化校园Web信息过滤的真实现状(过滤涉及到的实则是一堆由Web信息管理系统生成并存放于Web服务器上的静态文本,只需对这些静态文本进行合法和敏感分类即可完成过滤。),在基于概率统计的贝叶斯算法基础上,提出了改进的过滤算法并设计了完整的过滤模型来对Web文本信息进行过滤。该方法完全可以将过滤应用于服务器端或者系统管理端,做成主动过滤,避免了金钱和功能上的极大浪费,希望能以此来为解决目前高校信息安全问题提供一个可供参考的解决方案。本文首先阐述了目前高校数字化校园Web建设的大体情况,目前存在和亟需解决的信息安全问题。在过滤中涉及到的中文分词问题,本文采用了正向最大匹配算法,并根据实际情况进行了改进,得到了设想的分词效果。本文设计过滤算法时,对贝叶斯算法进行了深入的研究和分析,考虑敏感信息拦截发生误判时所带来的风险,引入损失因子和利用管理反馈规则的办法,提出了基于最小风险贝叶斯决策的最高安全级别过滤算法,并基于该算法对数字化校园Web文本信息内容过滤的应用进行了研究。根据实际情况,针对过滤算法存在的缺点,通过引入缓冲集的思想,以此来改进贝叶斯增量学习算法,使得分类器能更好地适应日益增长的海量数据分类任务。另外,为了验证本文所提出的设计思路的正确性,作者在Java环境下,应用数据集进行了实验,实验表明本文设计的过滤模型是可行的,并能在一定程度上改善过滤效果。最后是本文的总结和展望。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文研究的内容和主要创新点
  • 1.3.1 本文研究的内容
  • 1.3.2 本文的主要创新点
  • 1.4 论文的组织结构
  • 第2章 Web文本预处理
  • 2.1 Web文本、HTML及相关知识
  • 2.2 去除Web文本HTML标记等冗余信息
  • 2.3 中文分词
  • 2.3.1 主要中文分词方法
  • 2.3.2 中文分词算法设计
  • 2.3.3 中文分词的结果
  • 2.4 本章小结
  • 第3章 基于最小风险贝叶斯决策的最高安全级别过滤算法的研究
  • 3.1 贝叶斯算法
  • 3.1.1 概率论方面的基础知识
  • 3.1.2 贝叶斯统计模型
  • x|Cj)估计模型'>3.1.3 贝叶斯过滤模型的P(dx|Cj)估计模型
  • 3.2 贝叶斯算法在实际过滤中的应用
  • 3.2.1 特征项的提取
  • 3.2.2 公式依据
  • 3.2.3 贝叶斯过滤算法
  • 3.3 贝叶斯算法优点和局限性
  • 3.4 最高安全级别贝叶斯过滤算法的研究与应用
  • 3.4.1 基于最小风险的贝叶斯决策规则
  • 3.4.2 基于管理反馈的最高安全级别过滤算法
  • 3.5 本章小结
  • 第4章 改进的贝叶斯增量学习算法的研究
  • 4.1 存在问题
  • 4.2 算法思想
  • 4.3 算法描述
  • 4.4 算法评价
  • 4.5 本章小结
  • 第5章 模型的设计及实验结果分析
  • 5.1 过滤模型设计
  • 5.2 系统实现
  • 5.2.1 Web文本预处理程序
  • 5.2.2 贝叶斯过滤算法程序实现
  • 5.3 评价标准
  • 5.4 实验结果及分析
  • 5.4.1 算法实验一
  • 5.4.2 算法实验二
  • 5.5 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士期间公开发表/录用的学术论文
  • 相关论文文献

    • [1].基于WEB的通信电源远程监控系统研究[J]. 中国设备工程 2019(24)
    • [2].基于自适应遗传算法的考虑服务质量感知Web服务发现[J]. 电子测量技术 2019(22)
    • [3].面向Web系统热点数据预测及缓存管理的研究[J]. 信息技术与信息化 2019(12)
    • [4].基于页面对象的Web应用测试用例生成方法[J]. 计算机应用 2020(01)
    • [5].运用物联网和Web服务搭建院际转运信息平台[J]. 电子技术与软件工程 2020(02)
    • [6].延迟加载在web开发中的应用心得[J]. 视听 2020(02)
    • [7].基于Web的期刊采编系统的设计与实现[J]. 电脑知识与技术 2020(06)
    • [8].Web服务软件测试技术的研究与实现[J]. 电脑知识与技术 2020(02)
    • [9].移动互联网时代的Web性能优化实践[J]. 信息通信 2020(01)
    • [10].基于Web的校园个人自行车租赁系统[J]. 卫星电视与宽带多媒体 2020(02)
    • [11].基于网站制作的Web前端开发技术与优化[J]. 数字技术与应用 2020(01)
    • [12].基于Web应用的网络安全漏洞发现与研究[J]. 无线互联科技 2020(05)
    • [13].基于Web的动态几何软件领域模型及其应用[J]. 计算机应用 2020(04)
    • [14].基于web技术支持下网络多媒体课件的制作原则及优点[J]. 科技风 2020(13)
    • [15].基于Web的网上教学平台的设计与实现[J]. 科技与创新 2020(07)
    • [16].1+X证书制度与Web前端开发专业融合的探索[J]. 信息与电脑(理论版) 2020(04)
    • [17].基于《web前端页面设计》在线开放课程自主学习探讨[J]. 计算机产品与流通 2020(05)
    • [18].基于WEB的计算机课程辅助教学系统的设计与实现[J]. 计算机产品与流通 2020(05)
    • [19].基于Web的时变体数据的体绘制方法[J]. 计算机测量与控制 2020(04)
    • [20].Web浏览器中数据安全配置的研究[J]. 电脑编程技巧与维护 2020(04)
    • [21].基于实践应用的Web开发技术教学改革研究初探[J]. 科学大众(科学教育) 2020(05)
    • [22].基于Web的桥梁健康监测系统设计与实现[J]. 计算机技术与发展 2020(04)
    • [23].基于Web技术的计算机实验室综合管理系统设计[J]. 电子制作 2020(11)
    • [24].分析校园网中Web服务器的配置及安全防护[J]. 江西电力职业技术学院学报 2020(01)
    • [25].基于Web的研究生学位信息管理系统技术研究[J]. 创新创业理论研究与实践 2020(07)
    • [26].WEB技术在地质资料二次开发中的应用探讨[J]. 中国非金属矿工业导刊 2020(03)
    • [27].基于Web技术的医疗图像脱敏系统的设计与实现[J]. 宁夏工程技术 2020(02)
    • [28].网站制作的Web前端开发设计的相关研究[J]. 卫星电视与宽带多媒体 2020(07)
    • [29].Web开发提高网站性能的技巧[J]. 电脑编程技巧与维护 2020(06)
    • [30].随钻测井地质导向服务WEB版[J]. 国外测井技术 2020(03)

    标签:;  ;  ;  ;  ;  

    高校数字化校园Web信息过滤的研究
    下载Doc文档

    猜你喜欢