主题爬行器的研究与实现

主题爬行器的研究与实现

论文摘要

随着Web的快速式发展,传统的通用搜索引擎技术暴露出了覆盖率低,资源占用多,更新时间长,结果的针对性低等一系列问题。为了克服通用搜索引擎的不足,满足特定用户针对特定领域的查询需求,以面向主题发现的爬行技术应运而生。主题爬行技术是在传统的搜索引擎面向整个网络爬行的基础上,应用机器学习等智能方法,对爬行做主题性的指导,使爬行程序只下载与某一主题相关的页面。主题爬行技术从90年代发展至今,以高度的目标化和专业化在下一代搜索引擎中占据了一席之地。目前对主题爬行器的研究集中在两个热点——文本分类技术和爬行策略。本文对主题爬行的关键技术——文本分类进行了研究。主题爬行器在进行文本分类时,通常用向量空间法的TF-IDF方法来计算特征项的权重,该方法只考虑了特征项在文档中出现的频率(TF)和以及特征项出现的文档数(DF),而没有考虑到特征项在不同位置出现对文档的重要程度是不同的。针对这一缺陷,本文提出了“基于特征项位置信息的权重算法”,对文档中不同位置的特征项赋予不同的加权因子,从而使特征项的权重能够较客观地反映特征项的重要性,提高了分类准确性。在具体实现中,还可以对权重因子进行调整,使之达到更好的效果。根据最佳优先爬行算法的不足,以及人在浏览网页判断一个URL链接页面的内容所利用的信息,本文提出了“基于URL综合信息的爬行策略”:利用当前页面的主题相关度、当前页面中的超链接所包含的URL的目录层次信息以及链接的锚文本信息对待爬行URL的主题相关性进行预估,根据结果将该URL放入不同优先级的待爬行队列中。对于预测主题相关度低的URL也不丢弃,而是放入等待队列中,待其他爬行队列空闲时,爬行这些URL以发现新的主题相关网页。使用这种爬行策略,可以提高主题相关度预测的准确性并能快速下载主题相关的网页。该方法计算简单,提高了爬行的速度和召回率。最后在上述“基于特征项位置信息的权重算法”和“基于URL综合信息的爬行策略”的基础上,设计和实现了主题爬行器,并介绍了系统的体系结构和具体实现技术。

论文目录

  • 摘要
  • Abstract
  • 1. 第一章 绪论
  • 1.1 主题爬行研究的重要意义
  • 1.1.1 搜索引擎的兴起
  • 1.1.2 搜索引擎的分类
  • 1.1.3 主题爬行的提出
  • 1.1.4 主题爬行的现状
  • 1.2 主要工作
  • 2. 第二章 主题爬行关键技术
  • 2.1 通用爬行器介绍
  • 2.2 主题爬行器介绍
  • 2.3 文本分类技术
  • 2.3.1 文本表示
  • 2.3.2 向量空间模型
  • 2.3.2.1 特征项选择
  • 2.3.2.2 特征项赋权
  • 2.3.2.3 文档相似度
  • 2.3.3 布尔模型
  • 2.3.4 概率模型
  • 2.3.5 分类效果评价
  • 2.4 爬行策略
  • 2.4.1 基于网页内容的爬行策略
  • 2.4.1.1 最优优先策略
  • 2.4.1.2 链接上下文策略
  • 2.4.1.3 分块策略
  • 2.4.1.4 上下文图策略及增强学习策略
  • 2.4.2 基于网页链接的爬行策略
  • 2.4.2.1 PageRank 算法
  • 2.4.2.2 HITS 算法
  • 2.5 小结
  • 3. 第三章 基于特征项位置信息的权重算法
  • 3.1 TF-IDF 权重算法的不足之处
  • 3.2 网页不同位置主题表达能力研究的介绍
  • 3.3 基于特征项位置信息的权重算法
  • 3.4 文档类型特征向量的训练
  • 3.5 增量更新
  • 3.6 文档分类系统框架
  • 4. 第四章 基于URL 综合信息的爬行策略
  • 4.1 概述
  • 4.2 URL 的目录层次
  • 4.3 超链接的锚文本信息
  • 4.4 基于URL 综合信息的爬行策略
  • 5. 第五章 主题爬行器的总体设计
  • 5.1 系统结构及流程
  • 5.2 系统工具
  • 6. 第六章 主题爬行器详细设计及实现
  • 6.1 主题训练模块
  • 6.2 初始种子模块
  • 6.3 爬行模块
  • 6.3.1 构造和维护各个URL 队列
  • 6.3.2 获取网页
  • 6.3.3 解析网页
  • 6.3.4 对网页和超链接的处理
  • 6.4 前端分类器
  • 6.5 后端分类器
  • 6.6 本地数据存储系统
  • 7. 第七章 试验与分析
  • 7.1 数据集
  • 7.2 权重算法对比实验
  • 7.2.1 分类效果评价
  • 7.2.2 不同加权因子对文档分类影响的测试
  • 7.2.3 类别特征向量增量更新对文档分类影响的测试
  • 7.3 不同爬行策略对比实验
  • 7.3.1 实验结果的评价方法
  • 7.3.2 试验数据
  • 8. 第八章 总结与展望
  • 8.1 总结
  • 8.2 主题爬行的技术前景和展望
  • 致谢
  • 参考文献
  • 攻硕之间取得的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    主题爬行器的研究与实现
    下载Doc文档

    猜你喜欢