论文摘要
随着WWW技术的广泛应用,传统的通用搜索引擎正面临巨大的挑战,存在着查全率不高、检索的精度不高、更新不及时、不能很好地表达用户需求,呈现给用户的搜索结果中包含大量与用户无关的信息,同时,对于越来越多的不同领域的客户群,他们急需的是能够提供高效检索其业内信息的专题搜索引擎。专题搜索引擎(Topic-specific Search Engine),通过定点采集、定题采集、网站结构挖据等的方法来提高检索的查全率和查准率,保证其较高的时效性、专业性并提供更好的个性化服务,从而可高效地发掘特定领域的信息,提供有特色的检索服务。因此网络爬虫的设计是专题搜索引擎的核心,本文阐述了基于agent的专题搜索引擎的爬虫的设计及相关关键技术,本文的主要工作有:1.在分析搜索引擎技术、agent自适应技术和机器学习研究现状基础上提出了一种基于agent专题搜索的爬虫框架CFATSS(Crawler Frame of Agent-basedTopic-Specific Search)。2.提出了一种基于词表和统计相结合的分词算法,利用改进的Salton的向量空间模型VSM(Vector Space Model),将web结构挖掘和内容挖掘结合起来,设计了一种基于支持向量机特定主题的自动分类算法。3.提出了一种基于Q学习的搜索策略算法,该算法结合网页评价技术及链接结构技术,并利用agent自适应性,通过减少一定程度上的搜索贪婪性从而比较有效地避免了传统的启发式搜索引擎的容易过早陷入Web空间中某些局部最优子空间的陷阱。4.使用面向对象的语言Java实现了CFATSS,并根据北京大学(简体版)语料对中文分词模块进行测试,并分别对网页分类模块和基于Q学习的搜索策略算法性能进行验证,实验结果表明CFATSS在分词的歧义切分、网页分类的正确率以及系统的查全率和查准率都有一定的提高。
论文目录
摘要ABSTRACT第1章 绪论1.1 问题的提出1.2 研究的意义1.3 本文的工作和创新1.4论文的组织结构第2章 搜索引攀的研究现状2.1 通用搜索引擎2.1.1 通用搜索引擎简述2.1.2 google搜索引擎的原理2.2 专题搜索引擎的研究2.2.1 专题搜索引擎的概述2.2.2 专题搜索引擎搜索策略2.3 本章小结第3章 agent技术及专题搜索爬虫的设计3.1 agent和agent学习策略3.1.1 agent模型与结构3.1.2 agent学习策略3.2 基于混合型专题搜索的爬虫agent框架3.3 本章小结第4章 网页预处理与自动分类技术4.1 中文分词4.1.1 中文分词概述4.1.2 词典与统计相结合的分词算法4.2 特征抽取4.3 VSM模型的改进4.3.1 VSM模型4.3.2 Html标记在改进VSM模型的分析4.4 文本自动分类概述4.4.1 有指导的文本分类方法4.4.2 无指导的文本分类方法4.5 基于支持向量机分类算法实现过程4.5.1 支持向量机4.5.2 网页自动分类算法4.6 本章小结第5章 基于Q学习网页爬行算法的设计5.1 网络蜘蛛搜索策略5.1.1 专题蜘蛛爬行策略概述5.1.2 专题蜘蛛的几种常见爬行策略5.2 启发式专题搜索引擎5.2.1 启发式搜索概述5.2.2 启发式搜索爬虫缺陷5.3 基于O学习的爬虫agent搜索策略的设计5.3.1 基于Q学习的搜索策略概述5.3.2 Q-学习系统的结构及神经网络实现5.3.3 基于Q学习主题搜索算法5.4 本章小结第6章 CFATSS实验结果分析6.1 设计目标和系统结构6.1.1 设计目标6.1.2 系统结构6.2 中文分词子系统实验6.3 专题搜爬虫Agent实验6.3.1 网页分类实验6.3.2 专题搜索实验6.4 本章小结第7章 结束语7.1 全文总结7.2 工作展望参考文献致谢论文及科研情况
相关论文文献
标签:中文分词论文; 文本分类论文; 学习论文; 专题搜索论文;