基于URL特征的网页分类研究

基于URL特征的网页分类研究

论文摘要

互联网提供了大量的广泛分布和高动态资源信息,网页信息分散且不方便管理。网页分类能有效解决这些问题。在网页分类过程中,选取特征是其中重要一环,传统的特征从网页正文、锚文本、标题等网页文本中选取,这样的选择方式耗时且代价很高。同时,特征冗余,特征维数过高也是网页分类中常见的问题。如何快速鉴别网页类别同时提高分类精度以及特征降维成为了急需解决的问题。论文系统地分析了网页分类的产生背景、发展现状及研究意义,对网页分类的关键技术进行深入的学习和研究,并在已有研究成果的基础上,主要完成了这些方面的创新:URL是网页唯一的标识,直接根据URL特征进行网页分类可以省去处理网页正文的时耗。论文分析了URL的结构,提出了n-gram方法处理URL得到特征,n-gram法通过分割URL得到一系列字符串,充分利用URL上所包含的信息,选用weka工具做分类实验。通过选择不同的n值对比,得出从提取到分类所需的时间比传统的正文要快很多,并能达到较高的精度。实验通过URL的n-gram特征提取法和传统的URL特征提取法比较,得出n-gram效果比较好。并且在不要求时间的前提下,n-gram和正文文本特征相结合效果比单独使用n-gram和网页正文锚文本标题特征有所改进。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 国内外研究现状
  • 1.3 本文主要工作内容
  • 1.4 论文内容结构
  • 第二章 网页一般分类方法
  • 2.1 传统网页分类的一般方法
  • 2.1.1 技术背景
  • 2.1.2 传统网页分类的一般步骤
  • 2.2 常用的网页特征
  • 2.2.1 页面特征
  • 2.2.2 邻居特征
  • 2 3 网页分类算法
  • 2.3.1 SVM 算法
  • 2.3.2 改进的LIBSVM 分类算法
  • 2.4 本章小结
  • 第三章 于URL 的网页分类实现
  • 3.1 引言
  • 3.1.1 传统特征的不足
  • 3.1.2 URL 的组成结构
  • 3.2 基于n-gram 的URL 特征提取方法
  • 3.2.1 常用的URL 特征提取方法及不足
  • 3.2.2 基于n-gram 的url 特征提取方法
  • 3.2.3 n-gram 特征与网页正文特征组合方法的实现
  • 3.3 实验及结果分析
  • 3.3.1 实验数据集构建
  • 3.3.2 实验分类工具以及评价标准
  • 3.3.3 实验步骤结果及分析
  • 3.4 本章小结
  • 第四章 总结与展望
  • 4.1 本文完成的工作
  • 4.2 未来的研究方向
  • 致谢
  • 缩略词
  • 图表清单
  • 参考文献
  • 相关论文文献

    标签:;  ;  

    基于URL特征的网页分类研究
    下载Doc文档

    猜你喜欢