
论文摘要
随着网络资源的急剧增长,在庞大的网络上,快、准、全地找到相关信息,变得越来越困难。此时,搜索引擎应运而生。搜索引擎是人们从网上查找信息最方便快捷的方式,也因此超过E-mail等常见web服务,成为用户使用量最多的服务。通用搜素引擎,面向所有的web信息检索者,由于庞大的网络信息规模和高速响应要求,使其检索结果的相关性不尽人意。主题搜索引擎,是为进一步提高相关性而发展起来的新一代搜索引擎。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了搜索引擎的发展概况和网络爬虫研究现状;然后分析了集中式主题网络爬虫的体系结构,将其分成5个组成部分:数据存储、下载模块、网页预处理、网页分类和链接分析,并阐述了各部分的功能。本文的具体工作如下:(1)在搜索策略中,结合内容分析和链接分析,利用URL字符串、锚文本、父页面和兄弟页面等启发信息,设计出一种链接评分方法。(2)网页预处理过程,包括分词、HTML解释和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪效果。(3)网页分类包括两个阶段:特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率、改进后的CHI特征和互信息,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF和重要信息标签的权值,得到了更适应网页分类的权值计算方法。(4)最后,在VC6.0和SQL SERVER2000平台上,实现了一个简易的爬虫系统,并简要分析了爬虫的运行结果,达到了令人满意的效果。
论文目录
摘要Abstract1 绪论1.1 概述1.1.1 Internet发展1.1.2 搜索引擎的发展1.2 国内外研究现状1.3 研究内容及本文组织2 主题爬虫体系结构2.1 基本流程和组成部分2.1.1 基本组成2.1.2 基本流程2.2 主题页面的分布特性2.2.1 Hub/Authority特性2.2.2 Linkage/Sibling Locality特性2.2.3 站点的主题特性2.2.4 隧道特性2.3 搜索策略以及链接提取2.3.1 robots协议和相对链接的转换2.3.2 搜索策略概述2.3.3 结合链接和内容因素的URL分值预测2.4 本章小结3 网页预处理3.1 文本分词3.2 HTML简介3.3 网页文件解析3.4 网页消噪3.4.1 相关工作和概念3.4.2 标签节点的过滤3.4.3 基于样式的消噪3.5 本章小结4 网页分类4.1 网页分类概述4.2 训练集和类目体系4.3 特征选择4.3.1 概述以及部分改进4.3.2 改进的特征选择4.4 权值计算4.4.1 TFIDF权值4.4.2 改进的权值公式4.5 分类算法概述4.6 本章小结5 爬虫系统设计5.1 实现条件和流程详述5.2 数据表格和存储过程定义5.2.1 数据表格定义5.2.2 存储过程和触发器的定义5.3 程序界面5.4 程序运行结果以及分析5.5 本章小结6 总结与展望6.1 总结6.2 展望致谢参考文献
相关论文文献
标签:搜索引擎论文; 网络爬虫论文; 主题爬虫论文; 网页消噪论文; 特征提取论文;