基于文本内容的网页过滤技术研究

基于文本内容的网页过滤技术研究

论文摘要

互联网的高速发展已经使其成为世界上覆盖面最广、范围最大、内容最为丰富的资源库。人们在充分享受信息共享所带来的便利的同时,却也饱受着大量“垃圾信息”的困扰。特别是对于广大青少年学生,一些“有害信息”正在威胁着他们的身心健康,另外,企业员工的上网行为亟待规范。因此网页过滤应运而生。当前,许多商用网页过滤产品都使用了一种称为基于文本内容的网页过滤技术。它是从分析网页内容入手,获取网页有效文本信息,利用文本分类算法,在训练集合上学习网页分类器。在人们访问互联网时,通过预先或实时计算出的网页类别,做出允许或禁止的判断。由此可见,基于文本内容的网页过滤其核心在于网页分类的准确性。本文研究了基于文本内容的网页过滤技术,网页过滤的成效依赖于网页分类的精度,网页分类分为两个步骤,第一步是,分析网页内容,得到网页中的能够代表网页语义的文本信息,这个过程称为网页文本内容抽取。这类技术包括利用网页文档结构的方法、通过计算网页摘要的方法以及基于链接的算法等。但是这些算法都有一些不可避免的弱点,从而会影响到后续分类的准确度。本文提出了一种在同一网站中寻找相似网页的算法,它可以克服其他网页内容抽取方法中存在的弱点。第二步是,从网页中抽取出有用的文本之后,接着要对此文本分类,本文分析了一些成熟的文本分类技术,它们包括贝叶斯算法、支持向量机、kNN算法和决策树等等。贝叶斯分类的出错率最小,就试验结果来看,朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。本文在实验中选择了贝叶斯算法作为网页分类器的文本分类方法,以Surfcontrol网页分类器作为参照,以其两个分类结果集分别作为训练集和测试集。实验结果表明,利用本文提出的文本抽取方法能够在绝大多数类别上取得不错的分类效果。

论文目录

  • 摘要
  • Abstract
  • 1 引言
  • 1.1 网页过滤简介
  • 1.1.1 个人电脑过滤
  • 1.1.2 企业网络内容过滤
  • 1.1.3 联网骨干网页过滤
  • 1.2 基于文本内容的网页过滤技术
  • 1.3 网页过滤与网页分类、文本分类
  • 1.4 内容安排
  • 2 网页文本内容抽取
  • 2.1 网页文本抽取方法
  • 2.1.1 基于文档结构的文本抽取
  • 2.1.2 通过摘要的文本抽取
  • 2.1.3 基于链接的文本抽取
  • 2.1.4 基于相邻网页的文本抽取
  • 2.2 文本抽取中存在的问题
  • 2.3 基于相似度的网页文本抽取
  • 2.3.1 两种类型的网页
  • 2.3.2 宽度优先遍历树
  • 2.3.3 类别树
  • 2.4 小结
  • 3 网页文本内容过滤技术
  • 3.1 概述
  • 3.2 特征选择方法
  • 3.2.1 文档频次
  • 3.2.2 互信息
  • 3.2.3 信息增益
  • 3.2.4 相对熵
  • 3.2.5 统计量
  • 3.3 文本分类方法
  • 3.3.1 贝叶斯分类算法
  • 3.3.2 支持向量机
  • 3.3.3 k近邻方法
  • 3.3.4 决策树
  • 3.4 阈值策略
  • 3.4.1 位置截尾法(RCut)
  • 3.4.2 比例截尾法(PCut)
  • 3.4.3 最优截尾法(SCut)
  • 3.4.4 改进型截尾法(RTCut)
  • 3.5 评测指标
  • 3.6 小结
  • 4 实验
  • 4.1 训练、测试流程
  • 4.2 摘要
  • 4.3 贝叶斯方法
  • 4.3.1 贝叶斯文本分类算法的两种模型
  • 4.3.2 多变量贝努里事件模型
  • 4.3.3 多项式事件模型
  • 4.4 特征选择
  • 4.5 阈值策略
  • 4.6 实验结果
  • 4.7 实验结果分析
  • 4.8 小结
  • 5 网页内容类别库更新
  • 5.1 互联网的动态性
  • 5.1.1 互联网的增长特性
  • 5.1.2 互联网内容的更新特征
  • 5.2 链接结构
  • 5.2.1 Random模型
  • 5.2.2 Scale-free模型
  • 5.3 网页抓取策略
  • 5.3.1 选择策略
  • 5.3.2 再次访问策略
  • 5.3.3 友好的下载策略
  • 5.3.4 并行策略
  • 5.4 小结
  • 6 结束语
  • 6.1 结论
  • 6.2 未来的工作
  • 参考文献
  • 致谢
  • 个人简历
  • 参与的项目
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于文本内容的网页过滤技术研究
    下载Doc文档

    猜你喜欢