论文摘要
互联网提供了大量的广泛分布和高动态资源信息,网页信息分散且不方便管理。网页分类能有效解决这些问题。在网页分类过程中,选取特征是其中重要一环,传统的特征从网页正文、锚文本、标题等网页文本中选取,这样的选择方式耗时且代价很高。同时,特征冗余,特征维数过高也是网页分类中常见的问题。如何快速鉴别网页类别同时提高分类精度以及特征降维成为了急需解决的问题。论文系统地分析了网页分类的产生背景、发展现状及研究意义,对网页分类的关键技术进行深入的学习和研究,并在已有研究成果的基础上,主要完成了这些方面的创新:URL是网页唯一的标识,直接根据URL特征进行网页分类可以省去处理网页正文的时耗。论文分析了URL的结构,提出了n-gram方法处理URL得到特征,n-gram法通过分割URL得到一系列字符串,充分利用URL上所包含的信息,选用weka工具做分类实验。通过选择不同的n值对比,得出从提取到分类所需的时间比传统的正文要快很多,并能达到较高的精度。实验通过URL的n-gram特征提取法和传统的URL特征提取法比较,得出n-gram效果比较好。并且在不要求时间的前提下,n-gram和正文文本特征相结合效果比单独使用n-gram和网页正文锚文本标题特征有所改进。