基于Agent的专题搜索引擎爬虫的研究

论文摘要

随着WWW技术的广泛应用,传统的通用搜索引擎正面临巨大的挑战,存在着查全率不高、检索的精度不高、更新不及时、不能很好地表达用户需求,呈现给用户的搜索结果中包含大量与用户无关的信息,同时,对于越来越多的不同领域的客户群,他们急需的是能够提供高效检索其业内信息的专题搜索引擎。专题搜索引擎（Topic-specific Search Engine）,通过定点采集、定题采集、网站结构挖据等的方法来提高检索的查全率和查准率,保证其较高的时效性、专业性并提供更好的个性化服务,从而可高效地发掘特定领域的信息,提供有特色的检索服务。因此网络爬虫的设计是专题搜索引擎的核心,本文阐述了基于agent的专题搜索引擎的爬虫的设计及相关关键技术,本文的主要工作有:1.在分析搜索引擎技术、agent自适应技术和机器学习研究现状基础上提出了一种基于agent专题搜索的爬虫框架CFATSS（Crawler Frame of Agent-basedTopic-Specific Search）。2.提出了一种基于词表和统计相结合的分词算法,利用改进的Salton的向量空间模型VSM（Vector Space Model）,将web结构挖掘和内容挖掘结合起来,设计了一种基于支持向量机特定主题的自动分类算法。3.提出了一种基于Q学习的搜索策略算法,该算法结合网页评价技术及链接结构技术,并利用agent自适应性,通过减少一定程度上的搜索贪婪性从而比较有效地避免了传统的启发式搜索引擎的容易过早陷入Web空间中某些局部最优子空间的陷阱。4.使用面向对象的语言Java实现了CFATSS,并根据北京大学（简体版）语料对中文分词模块进行测试,并分别对网页分类模块和基于Q学习的搜索策略算法性能进行验证,实验结果表明CFATSS在分词的歧义切分、网页分类的正确率以及系统的查全率和查准率都有一定的提高。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 问题的提出

1.2 研究的意义

1.3 本文的工作和创新

1.4论文的组织结构

第2章搜索引攀的研究现状

2.1 通用搜索引擎

2.1.1 通用搜索引擎简述

2.1.2 google搜索引擎的原理

2.2 专题搜索引擎的研究

2.2.1 专题搜索引擎的概述

2.2.2 专题搜索引擎搜索策略

2.3 本章小结

第3章 agent技术及专题搜索爬虫的设计

3.1 agent和agent学习策略

3.1.1 agent模型与结构

3.1.2 agent学习策略

3.2 基于混合型专题搜索的爬虫agent框架

3.3 本章小结

第4章网页预处理与自动分类技术

4.1 中文分词

4.1.1 中文分词概述

4.1.2 词典与统计相结合的分词算法

4.2 特征抽取

4.3 VSM模型的改进

4.3.1 VSM模型

4.3.2 Html标记在改进VSM模型的分析

4.4 文本自动分类概述

4.4.1 有指导的文本分类方法

4.4.2 无指导的文本分类方法

4.5 基于支持向量机分类算法实现过程

4.5.1 支持向量机

4.5.2 网页自动分类算法

4.6 本章小结

第5章基于Q学习网页爬行算法的设计

5.1 网络蜘蛛搜索策略

5.1.1 专题蜘蛛爬行策略概述

5.1.2 专题蜘蛛的几种常见爬行策略

5.2 启发式专题搜索引擎

5.2.1 启发式搜索概述

5.2.2 启发式搜索爬虫缺陷

5.3 基于O学习的爬虫agent搜索策略的设计

5.3.1 基于Q学习的搜索策略概述

5.3.2 Q-学习系统的结构及神经网络实现

5.3.3 基于Q学习主题搜索算法

5.4 本章小结

第6章 CFATSS实验结果分析

6.1 设计目标和系统结构

6.1.1 设计目标

6.1.2 系统结构

6.2 中文分词子系统实验

6.3 专题搜爬虫Agent实验

6.3.1 网页分类实验

6.3.2 专题搜索实验

6.4 本章小结

第7章结束语

7.1 全文总结

7.2 工作展望

参考文献

致谢

论文及科研情况

基于Agent的专题搜索引擎爬虫的研究

论文摘要

论文目录

相关论文文献

猜你喜欢