论文摘要
随着Web的快速式发展,传统的通用搜索引擎技术暴露出了覆盖率低,资源占用多,更新时间长,结果的针对性低等一系列问题。为了克服通用搜索引擎的不足,满足特定用户针对特定领域的查询需求,以面向主题发现的爬行技术应运而生。主题爬行技术是在传统的搜索引擎面向整个网络爬行的基础上,应用机器学习等智能方法,对爬行做主题性的指导,使爬行程序只下载与某一主题相关的页面。主题爬行技术从90年代发展至今,以高度的目标化和专业化在下一代搜索引擎中占据了一席之地。目前对主题爬行器的研究集中在两个热点——文本分类技术和爬行策略。本文对主题爬行的关键技术——文本分类进行了研究。主题爬行器在进行文本分类时,通常用向量空间法的TF-IDF方法来计算特征项的权重,该方法只考虑了特征项在文档中出现的频率(TF)和以及特征项出现的文档数(DF),而没有考虑到特征项在不同位置出现对文档的重要程度是不同的。针对这一缺陷,本文提出了“基于特征项位置信息的权重算法”,对文档中不同位置的特征项赋予不同的加权因子,从而使特征项的权重能够较客观地反映特征项的重要性,提高了分类准确性。在具体实现中,还可以对权重因子进行调整,使之达到更好的效果。根据最佳优先爬行算法的不足,以及人在浏览网页判断一个URL链接页面的内容所利用的信息,本文提出了“基于URL综合信息的爬行策略”:利用当前页面的主题相关度、当前页面中的超链接所包含的URL的目录层次信息以及链接的锚文本信息对待爬行URL的主题相关性进行预估,根据结果将该URL放入不同优先级的待爬行队列中。对于预测主题相关度低的URL也不丢弃,而是放入等待队列中,待其他爬行队列空闲时,爬行这些URL以发现新的主题相关网页。使用这种爬行策略,可以提高主题相关度预测的准确性并能快速下载主题相关的网页。该方法计算简单,提高了爬行的速度和召回率。最后在上述“基于特征项位置信息的权重算法”和“基于URL综合信息的爬行策略”的基础上,设计和实现了主题爬行器,并介绍了系统的体系结构和具体实现技术。
论文目录
摘要Abstract1. 第一章 绪论1.1 主题爬行研究的重要意义1.1.1 搜索引擎的兴起1.1.2 搜索引擎的分类1.1.3 主题爬行的提出1.1.4 主题爬行的现状1.2 主要工作2. 第二章 主题爬行关键技术2.1 通用爬行器介绍2.2 主题爬行器介绍2.3 文本分类技术2.3.1 文本表示2.3.2 向量空间模型2.3.2.1 特征项选择2.3.2.2 特征项赋权2.3.2.3 文档相似度2.3.3 布尔模型2.3.4 概率模型2.3.5 分类效果评价2.4 爬行策略2.4.1 基于网页内容的爬行策略2.4.1.1 最优优先策略2.4.1.2 链接上下文策略2.4.1.3 分块策略2.4.1.4 上下文图策略及增强学习策略2.4.2 基于网页链接的爬行策略2.4.2.1 PageRank 算法2.4.2.2 HITS 算法2.5 小结3. 第三章 基于特征项位置信息的权重算法3.1 TF-IDF 权重算法的不足之处3.2 网页不同位置主题表达能力研究的介绍3.3 基于特征项位置信息的权重算法3.4 文档类型特征向量的训练3.5 增量更新3.6 文档分类系统框架4. 第四章 基于URL 综合信息的爬行策略4.1 概述4.2 URL 的目录层次4.3 超链接的锚文本信息4.4 基于URL 综合信息的爬行策略5. 第五章 主题爬行器的总体设计5.1 系统结构及流程5.2 系统工具6. 第六章 主题爬行器详细设计及实现6.1 主题训练模块6.2 初始种子模块6.3 爬行模块6.3.1 构造和维护各个URL 队列6.3.2 获取网页6.3.3 解析网页6.3.4 对网页和超链接的处理6.4 前端分类器6.5 后端分类器6.6 本地数据存储系统7. 第七章 试验与分析7.1 数据集7.2 权重算法对比实验7.2.1 分类效果评价7.2.2 不同加权因子对文档分类影响的测试7.2.3 类别特征向量增量更新对文档分类影响的测试7.3 不同爬行策略对比实验7.3.1 实验结果的评价方法7.3.2 试验数据8. 第八章 总结与展望8.1 总结8.2 主题爬行的技术前景和展望致谢参考文献攻硕之间取得的研究成果
相关论文文献
标签:主题爬行器论文; 特征项位置论文; 目录层次论文; 锚文本论文;