基于领域本体的主题爬虫系统研究与实现

基于领域本体的主题爬虫系统研究与实现

论文摘要

搜索引擎是人们从网络中获取信息资源的重要工具。目前主要的搜索引擎服务商有Google、百度、Yahoo等,这些搜索引擎面向的是广大的互联网用户,提供的都是横向的信息搜索服务。但是,由于互联网中的信息量巨大,网页内容参差不齐,如何为用户搜索到与搜索需求最相关的高质量网页是目前搜索引擎研究的热点问题之一。本文着眼于目前主题爬虫研究的主要问题即爬虫搜索策略,主要进行了以下几个方面的工作。首先对网络蜘蛛爬虫技术进行了深入研究。研究了搜索引擎的相关理论和技术之后,掌握了网络爬虫的工作原理以及具体的实现技术,在结合了主题爬虫通用工作模型理论之后,提出了本系统所采用的主题搜索引擎体系结构。这部分工作主要解决了主题爬虫主题概念集合表述、URL重要度判断的问题。主题概念集合将知识领域本体库中的知识点抽取出来之后,结合知识节点之间的关系,对整个集合中的特征词计算权重,以此作为主题特征词集合。在主题爬虫进行页面搜集的过程中,系统采用一种将网页内容相似度与链接结构相结合的算法,来对URL的重要程度进行计算,将解析出的URL按照重要程度的高低插入到待爬取链接队列中。网页内容的相似度是利用空间向量模型来计算网页相关信息与主题特征词集合向量的相似度,同时还考虑了关键词的位置,关键词所在位置不同,相应的权重也不同。在考虑链接结构时,本算法对HITS算法进行了一些改进,仅考虑了页面的Hub值,网页Hub值越大,越有可能是导航页,导航页比较容易发现相关的主题资源。该算法将父链接的网页文本价值与链接价值相结合,同时还考虑了父链接的重要度对子链接的贡献,可以提高链接价值的预测准确度,能够确保爬虫总是优先搜集重要程度高的页面。其次对爬虫搜索结果的排序算法进行了研究。提出了将K-means算法应用于网页主题凝聚度的计算。以K-means算法为基础,通过对网页文本内容进行分词,计算分词与主题词的凝聚度,对页面的搜索结果就以该凝聚度为标准来排序。最后,实现了一个基于领域知识本体的主题爬虫系统,利用数学知识本体库,通过实验对本系统进行测试。对实验结果进行了分析,并与相关算法进行了比较,验证了算法的可行性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 国内外研究现状
  • 1.3 课题研究主要内容
  • 1.4 论文的组织结构
  • 第二章 相关理论与技术
  • 2.1 WEB 搜索引擎概述
  • 2.1.1 搜索引擎的概念
  • 2.1.2 搜索引擎的分类
  • 2.2 蜘蛛爬虫概述
  • 2.2.1 蜘蛛爬虫概念
  • 2.2.2 通用网络爬虫模型
  • 2.2.3 主题网络爬虫模型
  • 2.3 本体概述
  • 2.3.1 本体的概念
  • 2.3.2 本体描述语言——OWL
  • 2.3.3 本课题涉及的本体部分
  • 2.4 超文本传输协议
  • 2.5 windows 多线程概念
  • 2.6 MD5 算法
  • 2.7 K-means 算法
  • 2.8 本章小结
  • 第三章 主题搜索算法研究与设计
  • 3.1 网络蜘蛛通用搜索算法
  • 3.2 主题蜘蛛搜索算法研究
  • 3.2.1 基于内容评价的搜索策略
  • 3.2.2 基于链接结构的搜索策略
  • 3.2.3 基于未来回报价值评价的搜索策略
  • 3.2.4 基于综合价值的搜索策略
  • 3.2.5 各类搜索策略分析比较
  • 3.3 基于领域知识本体的系统新算法设计
  • 3.3.1 URL 队列优先权排序算法设计
  • 3.3.2 基于领域知识本体的页面聚合度排序策略设计
  • 3.4 本章小结
  • 第四章 基于领域本体的网络爬虫系统设计与实现
  • 4.1 主题爬虫系统整体设计
  • 4.1.1 系统架构设计与整体流程
  • 4.1.2 数据库设计
  • 4.1.3 主要的类与数据结构
  • 4.2 主题爬虫系统重点模块实现
  • 4.2.1 主题特征词的建立
  • 4.2.2 URL 初始种子的确立
  • 4.2.3 爬虫搜集Web 页面模块
  • 4.2.4 URL 队列优先权排序算法实现
  • 4.2.5 页面主题凝聚度算法实现
  • 4.3 系统测试
  • 4.3.1 实验环境
  • 4.3.2 系统相关模块运行情况
  • 4.3.3 网页聚合度算法实验情况
  • 4.3.4 主题爬虫实验结果分析
  • 4.4 本章小结
  • 第五章 总结与展望
  • 致谢
  • 参考文献
  • 攻读硕士期间取得的科研成果
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  ;  

    基于领域本体的主题爬虫系统研究与实现
    下载Doc文档

    猜你喜欢