基于网页分块的主题爬虫方法研究

基于网页分块的主题爬虫方法研究

论文摘要

随着网络上信息的爆炸式增长,普通搜索引擎的查询结果越来越不能满足用户查询的需要,尤其是那些查询特定信息的不同领域、不同背景的用户,因此适应特定主题和个性化搜索的垂直搜索引擎应运而生。主题爬虫作为垂直搜索引擎的核心组成部分,其抓取的网页的质量好坏直接影响垂直搜索引擎的返回结果。如何判断下载的网页与目标主题的相关度和如何确定待爬行队列中URL的访问优先级是主题爬虫中影响抓取的网页质量的关键因素;同时由于Web页面的结构特性,致使主题爬虫在爬行过程中存在“隧道”现象,它的存在将会对爬行的覆盖率和准确率造成较大的影响。本文利用网页分块判断主题相关度和最佳优先搜索策略的优势,同时为了克服“隧道”现象,提出了一种基于网页分块的主题爬虫方法:①将分类器的思想应用到主题爬虫中,训练出了针对主题爬虫的类中心向量分类器,该分类器主要用于确定网页或网页块的主题类别和它们之间的相似度,其突出的优点是可以较好的描述用户感兴趣的主题,分类速度快,能提高爬行的速度;②在网页块内考虑URL的差异,将块内的URL分为特殊URL和普通URL进行访问优先级预测,从而提高预测的准确性,克服由于预测不准确带来的相关网页被忽略的问题;③通过在网页块内引用类间转移概率,克服爬行过程中存在的“黑色隧道”现象,通过利用网页分块的思想,克服爬行过程中存在的“灰色隧道”现象。最后从DMOZ目录中选取3种不同的目标主题对基于本文提出的方法和已存在的基于文字内容的方法及基于分类器的方法实现的三种主题爬虫采用常用的性能评估值——Harvest Ratio进行对比验证,实验结果表明本文提出的方法实现的主题爬虫在Harvest Ratio上要优于其他两种方法,较好的满足了主题爬虫的需求。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 课题研究背景
  • 1.2 国内外研究现状
  • 1.3 本文研究的主要内容
  • 1.3.1 研究目的
  • 1.3.2 研究内容
  • 1.4 论文结构
  • 2 相关理论及技术
  • 2.1 搜索引擎概述
  • 2.1.1 通用搜索引擎
  • 2.1.2 垂直搜索引擎
  • 2.2 普通爬虫
  • 2.2.1 普通爬虫模型
  • 2.2.2 普通爬虫的爬行策略
  • 2.3 主题爬虫
  • 2.3.1 主题爬虫模型
  • 2.3.2 主题爬虫的爬行策略
  • 2.3.3 主题爬虫与普通爬虫的区别
  • 2.4 主题爬虫的关键技术
  • 2.4.1 中文分词技术
  • 2.4.2 文本表示模型
  • 2.4.3 特征提取方法
  • 2.4.4 文本分类技术
  • 2.4.5 网页分类技术
  • 2.5 Web 页面的结构特性及其对主题爬虫的影响
  • 2.5.1 Web 页面结构特性
  • 2.5.2 Web 页面结构特性对主题爬虫的影响
  • 2.6 本章小结
  • 3 主题爬虫相关算法介绍
  • 3.1 主题相关度判断算法
  • 3.1.1 基于整个页面的相关度判断
  • 3.1.2 基于网页分块的相关度判断
  • 3.2 待爬行URL 访问优先级的预测算法
  • 3.2.1 基于文字内容的评价方法
  • 3.2.2 基于衔接的评价方法
  • 3.2.3 基于分类器的方法
  • 3.3 “隧道”现象的解决方法
  • 3.3.1 “黑色隧道”的解决方法
  • 3.3.2 “灰色隧道”的解决方法
  • 3.4 算法分析
  • 3.5 本章小结
  • 4 一种基于网页分块的主题爬虫方法
  • 4.1 问题的提出
  • 4.2 基于网页分块的主题爬虫方法的思想
  • 4.3 基于网页分块的主题爬虫方法的实现
  • 4.3.1 训练集的选取
  • 4.3.2 类间转移概率的训练
  • 4.3.3 主题分类器的构建
  • 4.3.4 基于视觉特征将网页分块
  • 4.3.5 预测网页块中URL 的访问优先级
  • 4.4 本章小结
  • 5 实验及结果比较
  • 5.1 实验介绍
  • 5.1.1 基准方法
  • 5.1.2 验证方法
  • 5.1.3 实验条件
  • 5.2 实验结果
  • 5.2.1 三种主题爬虫的实验结果比较
  • 5.2.2 三种主题爬虫在爬行过程中的实验结果比较
  • 6 总结
  • 致谢
  • 参考文献
  • 附录
  • A 作者在攻读硕士学位期间发表的论文目录
  • B 作者在攻读硕士学位期间参与的科研项目
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  ;  

    基于网页分块的主题爬虫方法研究
    下载Doc文档

    猜你喜欢