聚焦爬虫技术研究

论文摘要

万维网信息的爆炸式增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需要的信息需要耗费大量的时间,造成了“信息过载,知识匮乏”的问题。为了解决这个问题,在Web信息检索领域提出了面向主题的聚焦爬虫技术。聚焦爬虫根据用户定义的目标主题,智能化的从Web上收集主题相关的网页集合,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户的信息检索需求。它的理论和技术基础主要包括机器学习、信息检索、概率统计理论和Web新技术。在很多应用领域,如基于Web的行业分析、自动构建专题数字图书馆等,主题驱动的聚焦爬虫系统都富有应用前景。首先研究了搜索引擎和爬虫的技术原理,工作流程以及典型的聚焦爬虫体系结构,然后重点分析了聚焦爬虫的主题定义,网页的链接分析算法和内容分析算法,主题爬行策略,以及存在的主要问题。根据HITS算法善于发现主题社区,但是容易发生主题漂移;最佳优先算法由于忽视超链接信息容易陷入局部最佳子空间的问题,提出了新的主题综合爬行策略。该策略综合利用超链接价值和内容主题相关性价值计算网页的综合价值并排序。通过利用主题页面分布特性,采用HITS算法计算网页的超链接价值,发现并抓取主题社区及主题相关网页,并通过基于向量空间模型的网页主题相关度判定算法精确地量化了网页与主题的相关程度,避免爬行过程中容易出现的主题漂移问题,提高了爬虫系统的收获率。针对聚焦爬虫对目标主题的定义,采用文本分类方法建立主题特征词库,并提取主题特征用于计算网页的主题相关度。最后设计了基于综合爬行策略的聚焦爬虫的系统原型,改进了现有的聚焦爬虫的体系结构,该系统实现了主题Web资源的智能化收集。通过实验测试得到爬虫系统的收获率,验证了综合爬行策略的有效性。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 课题研究的背景

1.2 研究现状

1.3 本文的主要研究内容

1.4 本文的组织结构安排

第二章搜索引擎技术概述

2.1 搜索引擎基本要求

2.2 搜索引擎的分类

2.3 搜索引擎的体系结构

2.3.1 网络爬虫

2.3.2 索引

2.3.3 信息检索

2.3.4 用户接口

2.4 聚焦爬虫概述

2.4.1 主题式垂直搜索引擎概述

2.4.2 聚焦爬虫的特点

2.4.3 聚焦爬虫的工作流程

2.4.4 聚焦爬虫系统体系结构

2.5 本章小结

第三章聚焦爬虫技术的研究

3.1 主题描述

3.2 主题WEB 页面分布特征

3.2.1 中心页面特性

3.2.2 主题关联特性

3.2.3 主题聚集特性

3.2.4 隧道特性

3.3 网页分析算法

3.3.1 基于链接结构的网页分析算法

3.3.2 基于内容的网页分析算法

3.2.3 聚焦爬虫的网页爬行策略

3.4 本章小结

第四章基于综合爬行策略聚焦爬虫系统的设计与实现.

4.1 基于综合爬行策略的聚焦爬虫系统的体系结构

4.2 初始种子网页的选取

4.3 CRAWLER 剖析

4.3.1 HTTP/HTTPS 下载模块

4.3.2 DNS 解析器

4.3.3 下载模块控制器

4.3.4 Crawler 任务管理器

4.3.5 机器人拒绝协议

4.4 URL 的提取

4.5 WEB 内容分析

4.6 WEB 数据库

4.7 基于超链接结构和内容的综合爬行策略

4.7.1 超链接结构价值的计算

4.7.2 主题特征词库构建

4.7.3 主题特征向量的计算

4.7.4 内容的主题相关度

4.7.5 基于网页综合价值的爬行算法

4.7.6 超文本分类系统

4.8 实验结果与分析

4.8.1 性能评价方法

4.8.2 多种主题上的实验结果

4.8.3 初始样本数量的影响

4.8.4 综合价值中因子K 的影响

4.9 本章小结

第五章结论与展望

5.1 结论

5.2 展望

致谢

参考文献

附录：作者在攻读硕士学位期间发表的论文

聚焦爬虫技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢