Web主题网页内容安全监管研究

Web主题网页内容安全监管研究

论文摘要

网络的开放性和日益增长的规模,使其成为人们自由交流信息的便捷手段。但同时这种开放性也使网络中存在着很大的负面效应,如各种迷信、色情、暴力、反动和其他非法信息的传播,或者内部网中机密信息的泄漏等,这些都已成为了人们日益关注的焦点问题。而传统的过滤技术,如基于关键字,或基于IP地址的过滤等,现已不能很有效地解决这些问题。在这种需求下,本文针对基于支持向量机的文本内容分析过滤技术进行了研究,对网络信息内容进行安全分析,达到对网络信息的安全过滤;在对目前的Web内容分析方法做了初步的研究后,提出了一种基于KKT条件改进的反馈学习机制支持向量机文本内容分类过滤算法。首先,根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征对支持向量机进行训练,再使用支持向量机对待测文本进行分析并分类过滤,最后通过对一部分数据的反馈学习不断提高支持向量机的分类准确度。经对来自网站的主题网页的初步测试,文中所提出的算法能够较好地实现对网页中不良网页的分类过滤功能,获得了对特定信息安全过滤的较好效果。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题研究背景和意义
  • 1.2 基于内容的网页安全研究现状
  • 1.3 课题主要研究工作
  • 1.4 论文的结构
  • 第二章 网页内容安全监管中网页信息预处理技术研究
  • 2.1 Web 主题内容提取
  • 2.1.1 利用HTML 标记的分布规律找出主题
  • 2.1.2 利用DOM 树找出主题
  • 2.1.3 利用模板检测找出主题
  • 2.1.4 利用页面的视觉特征找出主题
  • 2.1.5 利用Table 标记找出主题
  • 2.1.6 本系统采用的提取方法
  • 2.2 中文词的切分技术
  • 2.2.1 形式分词方法
  • 2.2.2 语法分词方法
  • 2.2.3 语义分词方法
  • 2.3 网页特征的表示
  • 2.3.1 布尔模型(Boolean?Model)
  • 2.3.2 概率模型(Probabilistic?Model)
  • 2.3.3 向量空间模型(Vector?Space?Model,?VSM)
  • 2.4 特征降维技术
  • 2.4.1 词频方法
  • 2.4.2 互信息方法
  • 2.4.3 信息增益方法
  • 2 开方统计方法'>2.4.4 x2开方统计方法
  • 2.4.5 特征抽取方法
  • 第三章 基于内容的网络安全分类常用技术研究
  • 3.1 朴素贝叶斯算法
  • 3.2 基于VSM 的向量距离分类法
  • 3.3 KNN(最K 近邻)算法
  • 3.4 支持向量机算法
  • 3.5 神经网络算法
  • 3.6 决策树分类算法
  • 3.7 其他的分类算法
  • 3.8 文本分类方法质量评价
  • 3.8.1 影响分类质量的因素
  • 3.8.2 分类质量评价方法
  • 3.9 小结
  • 第四章 支持向量机技术及其在内容安全监管上的应用
  • 4.1 统计学习理论
  • 4.1.1 VC 维
  • 4.1.2 推广性的界
  • 4.1.3 结构风险最小化
  • 4.2 支持向量机SVM
  • 4.2.1 广义最优分类面
  • 4.2.2 核函数
  • 4.3 支持向量机的变形算法
  • 4.3.1 C-SVM 算法
  • 4.3.2 V-SVM 算法
  • 4.3.3 One-class SVM 算法
  • 4.4 反馈学习机制的支持向量机及改进
  • 4.4.1 反馈学习机制的支持向量机
  • 4.4.2 基于KKT 条件改进的反馈学习机制支持向量机
  • 4.4.3 基于KKT 条件的反馈算法流程
  • 4.5 支持向量机在网页内容安全监管方面的应用
  • 第五章 使用支持向量机进行网页内容安全监管实验与分析
  • 5.1 实验过程
  • 5.1.1 基于反馈学习支持向量机的网页内容安全监管系统总体框架
  • 5.1.2 网页内容安全监管实验语料的收集
  • 5.1.3 网页内容安全监管系统对网页的预处理
  • 5.1.4 内容安全监管系统中支持向量机的训练
  • 5.1.5 内容安全监管系统中支持向量机的反馈学习
  • 5.1.6 网页内容安全监管系统实验过程与结果
  • 5.1.7 分类实验结果分析
  • 5.2 小结
  • 第六章 结束语
  • 致谢
  • 参考文献
  • 研究成果
  • 相关论文文献

    • [1].技术传播的用户画像分析理论对网页内容设计的启示[J]. 海外英语 2019(03)
    • [2].浏览器快速处理网页内容[J]. 电脑爱好者 2017(13)
    • [3].iOS 9应用小技巧[J]. 电脑迷 2015(11)
    • [4].网页内容提取工具的设计与实现[J]. 电脑知识与技术 2011(32)
    • [5].解决网页内容不可复制问题[J]. 黑龙江科技信息 2011(35)
    • [6].时空穿梭 快速找回以前看过的网页内容[J]. 电脑迷 2010(16)
    • [7].移动元搜索引擎中网页内容提取算法研究[J]. 现代图书情报技术 2010(10)
    • [8].基于向量空间的网页内容相似度计算方法研究[J]. 计算机与现代化 2010(09)
    • [9].网页内容快速保存 快拖云收藏[J]. 电脑知识与技术(经验技巧) 2012(11)
    • [10].对超长网页内容进行截图[J]. 电脑知识与技术(经验技巧) 2019(08)
    • [11].基于块分布的新闻网页内容提取[J]. 吉林大学学报(工学版) 2009(05)
    • [12].基于文本对象模型的自动化网页内容提取方法[J]. 上海交通大学学报 2018(10)
    • [13].蚁群算法在网页内容分类中的应用研究[J]. 计算机系统应用 2009(04)
    • [14].基于网页内容相似度和链接关系的社区发现及动态添加[J]. 郑州大学学报(理学版) 2011(01)
    • [15].基于网页内容和链接价值的相关度方法的实现[J]. 计算机工程与设计 2008(23)
    • [16].精彩内容 瞬间分享[J]. 电脑迷 2010(10)
    • [17].祝贺本刊2010~2011年上半年网页点击逾10万次[J]. 中国矫形外科杂志 2011(15)
    • [18].祝贺本刊2011年上半年网页点击逾10万次[J]. 中国矫形外科杂志 2011(16)
    • [19].指指点点,文字、图片轻松抓[J]. 电脑爱好者 2008(17)
    • [20].揭开IE浏览器自动关闭谜底[J]. 个人电脑 2013(07)
    • [21].揭开IE浏览器自动关闭谜底[J]. 个人电脑 2017(11)
    • [22].苹果Ⅰ族应用技巧十二则[J]. 电脑知识与技术(经验技巧) 2015(11)
    • [23].一键清除Google的网络历史记录[J]. 电脑爱好者 2011(19)
    • [24].教你几招解决无法复制的网页内容[J]. 电脑知识与技术(经验技巧) 2012(06)
    • [25].老业务的2.0[J]. 21世纪商业评论 2008(06)
    • [26].网摘 得配备好武器[J]. 电脑爱好者(普及版) 2009(04)
    • [27].基于访问日志的网页内容监控挖掘系统[J]. 计算机工程 2011(04)
    • [28].不让图片帖子显示安全警告[J]. 电脑迷 2010(07)
    • [29].浅谈新时期编辑在图书线上销售中的价值体现[J]. 参花(下) 2018(09)
    • [30].Web网页内容特征库的构建及应用[J]. 情报探索 2009(04)

    标签:;  ;  ;  

    Web主题网页内容安全监管研究
    下载Doc文档

    猜你喜欢