论文摘要
近年来,随着互联网的普及以及快速增长,多样化的信息资源充斥着互联网。虽然现在有了搜索引擎帮助,可以简化网络资料获取的过程,但很多情况下,用户为了查找某个特定领域的信息还是要耗费大量的时间与精力。为了解决这个问题,主题爬虫应运而生,它可以根据用户自定义的目标主题,以智能化的方式从Web上收集主题相关的页面集,然后采用机器学习或信息检索的方法对结果进行分析处理,将用户最需要的答案提取出来。可以说,不论是要获取网络上的一个特定领域的主题信息,或者是构建个性化的搜索引擎,主题爬虫都已经成为一个首选的方法。而主题爬虫有许多个重要的组成部分,样本生成系统就是其中重要的一个。本文首先介绍了针对主题爬虫的样本生成系统的一些基本概念和主要研究内容。由于主题爬行的核心问题就是对候选URL进行权重判断,所以样本对于主题爬虫是极其重要的。在分析了现有的主题爬虫系统后,发现它们的样本生成算法都存在一定的问题。在对样本页面的特点进行深入研究后,发现它的锚文本内容包含了大量的特征信息。为了在大量的页面中提取出新的样本页面,我们基于页面的锚文本内容设计了计算模型,该模型是以锚文本的主题为基础建立的。然后采用一个半监督的聚类算法,该算法通过计算待测页面与种子样本页面集合之间的相似度来估计前者成为新样本页面的可能性。再通过阈值筛选后,对新得到的样本页面与原样本集合进行合并,完成一个样本增量生成的过程。在进行大量的实验后,发现算法在针对“窄主题”的样本发现过程中,存在准确率下降的问题,针对以上问题产生的原因,提出了一个改进的算法,在改进算法中,我们对于种子样本的模型建立进行了词数量的限制,同时将页面标题及页面正文加入特征模型中,使得样本生成系统可以更加准确的选择新样本页面。基于以上的研究成果,本文设计并实现了一个增量样本生成的实验原型系统,包括了种子样本模型建立,爬行解析、样本增量生成等模块,为进行相关的算法实验和研究提供了一个基础平台。
论文目录
摘要Abstract第1章 绪论1.1 研究背景和意义1.2 国内外相关技术研究现状1.2.1 主题爬虫技术现状1.2.2 样本生成研究现状1.3 本文的主要研究内容与章节组织第2章 基于分类的样本生成算法2.1 引言2.2 基于分类的样本生成算法2.2.1 静态样本生成算法的缺陷2.2.2 基于分类的增量样本生成算法研究2.2.3 基于分类的样本生成算法存在的问题2.3 实验结果及分析2.4 本章小结第3章 基于半监督聚类的增量样本生成算法3.1 基于增量学习的样本生成模型3.1.1 增量学习模型的定义3.1.2 基于增量学习的样本生成器体系结构3.2 半监督聚类算法CONSTRAINED-KMEANS3.2.1 聚类算法3.2.2 constrained-kmeans 算法3.2.3 基于锚文本的页面模型3.2.4 hubs 页面的特征描述3.2.5 基于锚文本的页面模型3.2.6 样本向量空间中距离的定义3.2.7 全样本向量3.3 增量样本生成算法3.3.1 基于constrain-kmeans 的样本生成算法3.3.2 样本增量策略3.3.3 ISG 算法及其分析3.4 实验与分析3.4.1 数据描述3.4.2 结果分析3.5 本章小结第4章 采用多页面特征的改进样本生成算法4.1 问题的定义4.1.1 窄主题样本生成问题4.1.2 样本生成准确率降低的原因4.2 样本页面特征表示模型4.2.1 超文本的多特征特性4.2.2 基于多特征的页面表示模型4.3 基于多特征的样本生成算法4.3.1 种子向量模型建立的问题4.3.2 基于多特征的样本生成算法4.4 实验与分析4.4.1 数据描述4.4.2 实验结果分析4.5 本章小结第5章 增量样本生成系统与应用5.1 系统设计与实现5.1.1 系统的功能目标5.1.2 开发平台及工具5.2 系统总体设计5.3 系统详细设计5.3.1 爬行解析模块5.3.2 页面特征提取/数据预处理模块5.3.3 样本模型建立模块5.3.4 样本生成模块5.3.5 样本增量筛选模块5.4 系统应用5.5 本章小结结论参考文献致谢
相关论文文献
标签:主题爬虫论文; 半监督聚类论文; 增量样本生成论文;