面向主题的网页过滤机制研究

面向主题的网页过滤机制研究

论文摘要

随着Internet的日益普及和迅猛发展,人们对网络的依赖程度越来越高,但Internet的开放性、平等性、无界性等特征又导致了网络的无限制滥用,大量的垃圾及敏感信息充斥于网络,如何滤除这些垃圾及敏感信息,消除网络带来的消极及负面影响已成为Internet信息服务须解决的关键问题之一。解决这一问题的最有效技术手段就是进行信息过滤。文章在研究信息过滤一般原理及常用网页过滤技术的基础上,以需求为驱动,从功能的角度出发,提出并构建了一个基于主题的网页过滤体系,并对该体系进行了较为深入的研究,主要的研究工作和取得的创新成果有以下几个主要方面:首先,分析了目前Internet中传播的各种信息流,根据过滤需求对网络中需要过滤的信息进行了分类,明确定义了研究的主题领域,在此基础上,设计了一个面向主题的信息过滤系统TSIFS,该系统采用分层的网页过滤策略,在信息过滤的分类方案中引入了神经网络技术,利用神经网络的学习能力及适应性弥补一般过滤机制的不足,从而可以提高了网页过滤的准确性。其次,为了处理的方便性,通过归一化策略将Web页面包含的多类型数据变换为文本信息进行处理,在这一变换过程中结合了主题信息的过滤特征,利用主题专业词汇及人工编辑辞典完成了文本向量的表示,设计了一个新的特征词权重函数;另外还提出并设计了一种页面字符编码的判别算法。再次,利用BP网络构建了基于神经网络的过滤信息分类模型,构造了TSIFS中的过滤引擎处理机制,并对涉及的输入向量正规化、参数选择等关键问题进行了重点讨论。最后,文章通过仿真实验对构造的基于主题的过滤系统进行了可行性、有效性、准确性等方面的实验验证和分析。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 主要研究内容及创新点
  • 1.3 论文组织结构
  • 第二章 相关理论与关键技术
  • 2.1 信息过滤的相关理论
  • 2.1.1 信息过滤的原理
  • 2.1.2 信息过滤技术的分类
  • 2.2 网页过滤技术
  • 2.2.1 URL过滤
  • 2.2.2 内容过滤
  • 2.2.3 网页分级
  • 2.2.4 几种常见过滤方式的比较
  • 2.3 神经网络的相关理论
  • 2.3.1 概述
  • 2.3.2 BP网络
  • 第三章 面向主题的信息过滤系统的体系结构
  • 3.1 主题领域范围的定义
  • 3.2 体系结构概述
  • 3.3 详细体系结构设计
  • 3.3.1 用户检索
  • 3.3.2 主题信息过滤
  • 3.3.3 主题数据更新
  • 3.3.4 分析统计
  • 3.3.5 检索结果
  • 3.4 体系结构的分析
  • 第四章 信息过滤中的网页分析
  • 4.1 基本架构
  • 4.2 信息组织
  • 4.2.1 原始资料采集
  • 4.2.2 重复链接过滤
  • 4.3 网页分析
  • 4.3.1 链接信息分析
  • 4.3.2 图像信息分析
  • 4.3.3 ICRA 分析
  • 4.3.4 文本分析
  • 4.3.5 小结
  • 4.4 文本分析处理及表示
  • 4.4.1 文本分析处理
  • 4.4.2 文本表示
  • 第五章 过滤中的信息分类机制
  • 5.1 基于神经网络的信息分类模型
  • 5.2 正规化处理
  • 5.3 参数选择
  • 5.4 网页存活自动检测
  • 第六章 TSIFS 的仿真实验验证
  • 6.1 实验环境及测试样本
  • 6.1.1 实验环境
  • 6.1.2 测试样本
  • 6.2 实验比较
  • 6.2.1 前置过滤与传统RBL的比较
  • 6.2.2 过滤引擎与前置过滤+过滤引擎处理效果比较
  • 6.2.3 过滤引擎与后置过滤组合测试结果
  • 6.2.4 准确率与误判率测试分析
  • 6.3 小结
  • 第七章 工作结论及下一步工作
  • 7.1 结论
  • 7.2 下一步工作
  • 参考文献
  • 硕士学习阶段参加的主要研究项目及成果
  • 致谢
  • 附录一 仿真实验采用的主题词
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向主题的网页过滤机制研究
    下载Doc文档

    猜你喜欢