基于本体的语义网爬虫的算法研究与应用实现

基于本体的语义网爬虫的算法研究与应用实现

论文摘要

语义网是在万维网的基础上进行扩展形成的。语义网对网络中的数据加入语义信息以帮助语义网应用能够在语义层面对数据进行理解并进行处理。近些年,语义网飞速发展,符合语义网标准的语义信息数量迅速增长,对这些信息进行有效的处理和解析可以为用户提供高质量的服务。语义搜索引擎就是这样的一个典型的语义网应用,它充分利用语义信息,将语义信息有效的组织并提供给用户进行语义相关的查询。而语义专题搜索引擎则更加充分的发挥了语义信息的特点,利用语义分析将主题相关的信息进行组织和检索,最终为用户提供准确的搜索结果。在语义专题搜索引擎框架中,语义专题爬虫是重要的部件之一。它负责搜集与主题相关的语义信息并对其进行初步的处理,例如语义信息的分类、存储以及元数据的抽取等。语义专题爬虫面临的问题是,如何在海量的语义信息中准确高效的获得与主题相关的语义资源。语义专题爬虫需要对语义信息进行内容判断、计算语义信息与主题的相关性、筛选与主题相关的信息并保存到数据存储中。同时,语义专题爬虫的效率也是相关研究的主要内容之一。因此,针对语义专题爬虫的准确性和效率问题,本文分别提出了相应的方法予以解决。对于语义信息内容的主题相关性判断问题,本文提出了判断语义文档的主题相关度的方法。方法将语义文档和领域本体表示为图形结构并通过计算图形结构之间的相似度来判断文档的主题相关度。在优化语义专题爬虫的效率方面,本文提出了Q学习结合贝叶斯分类器的路径预测算法(以下简称QBLP算法),QBLP算法通过计算页面主题相关度来作为Q学习器的回报函数,并利用回报函数对贝叶斯分类器的先验概率和条件概率进行调整,使先验概率和条件概率逐步趋近于真实值,以此来提高爬虫获取主题相关语义文档的性能。除了对算法进行研究,本文基于上述算法实现了语义专题爬虫FOCSEW系统。论文在以下方面作了有益的探索和创新性工作。(1)基于最大概率密度的聚类方法。在语义文档的图形表示方法中,为了对语义文档中的所有代表实体的关键词进行语义消歧并组织成图形结构,本文提出了基于最大概率密度的聚类方法。一个关键词可以包含多重概念,关键词和其在具体文档中概念的对应关系具有一定的概率性。最大概率密度就是一种包含了这样的概率信息的语义距离衡量标准。本文以最大概率密度为基础进行基于密度的聚类形成簇,再将簇中的所有概念连接形成的图形结构作为语义文档的内容表示。(2)针对语义专题爬虫的路径调整算法进行了分析和阐述。面对大量位置分散的语义文档,对文档内容的分析以及爬行路径的预测和筛选显得非常重要。本文提出了利用WordNet本体作为指导的语义文档图形表示方法,方法可以准确的将语义文档的内容表示为图形结构。在此基础上,本文提出了由Q学习器通过学习为贝叶斯分类器提供先验概率的QBLP爬虫路径调整算法。QBLP方法通过累计语义文档和语义链接特征的知识,调整爬虫爬行路径,提高爬虫的性能。这个目标在实验中得到了验证。本课题是在语义网搜索引擎研究框架下的重点模块之一。语义专题爬虫主要的目标是搜集与主题相关的语义文档供用户通过语义搜索引擎进行查询。本文对与主题相关的语义资源进行搜索和筛选,对于信息的集成和检索有着积极的意义。实验证明本文阐述的算法以及实现的语义专题爬虫系统FOCSEW可以高效的搜索相关语义资源,为语义搜索引擎系统奠定了数据基础。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第1章 绪论
  • 1.1 课题背景和研究意义
  • 1.2 语义网搜索引擎
  • 1.3 搜索引擎中专题爬虫的几个关键问题
  • 1.4 课题研究现状
  • 1.4.1 万维网爬虫的现状总结
  • 1.4.2 语义网爬虫的现状总结
  • 1.4.3 研究现状的比较和分析
  • 1.5 研究内容及创新点
  • 1.6 本文的组织
  • 第2章 基于本体的语义网专题爬虫的系统架构
  • 2.1 概述
  • 2.2 面向语义网的专题爬虫的总体框架
  • 2.3 本体概述
  • 2.3.1 本体的概念
  • 2.3.2 本体的描述语言
  • 2.3.3 本课题涉及到本体的部分
  • 2.4 核心模块功能概述
  • 2.4.1 主题评估器
  • 2.4.2 链接预测器
  • 2.5 本章小结
  • 第3章 语义文档内容的表示和评估模块的设计
  • 3.1 语义文档内容评估模块概述
  • 3.2 语义文档表示
  • 3.2.1 WordNet 词典
  • 3.2.2 文档内容表示方法现状
  • 3.2.3 基于图结构的表示方法
  • 3.3 语义文档内容评估模块
  • 3.3.1 指导本体的构建
  • 3.3.2 基于图搜索的概念之间的语义距离计算
  • 3.3.3 基于密度的聚类算法和文档语义消岐
  • 3.4 实验结果及分析
  • 3.4.1 实验一:语义距离计算
  • 3.4.2 实验二:语义文档内容的判断
  • 3.5 本章小结
  • 第4章 语义文档链接模型和链接预测算法
  • 4.1 概述
  • 4.2 语义文档链接模型
  • 4.3 语义链接预测中的基本算法概述
  • 4.3.1 Q 学习算法概述
  • 4.3.2 朴素贝叶斯分类器
  • 4.3.3 语义网专题爬虫中的应用场景
  • 4.4 特征的选取
  • 4.4.1 文档特征的选取
  • 4.4.2 链接特征的选取
  • 4.5 智能爬虫链接预测算法
  • 4.6 实验以及结果分析
  • 4.6.1 实验一:多次爬行召回率实验
  • 4.6.2 实验二:一次爬行获取率实验
  • 4.7 本章小结
  • 第5章 语义搜索引擎专题爬虫模块FOCSEW 系统实现
  • 5.1 FOCSEW 系统整体设计
  • 5.2 重点模块的实现
  • 5.2.1 Q 学习算法实现模块
  • 5.2.2 聚类算法的实现模块
  • 5.3 领域本体构建
  • 5.4 对语义网搜索引擎的支撑
  • 结论与展望
  • 参考文献
  • 附录1 链接获取类和所有Scanner 的类图
  • 附录2 抓取系统控制器部分的UML 图
  • 附录3 聚类算法和Q 学习实现的类图
  • 附录4 所有消费者(Consumer)的类图
  • 附录5 系统的配置文件
  • 攻读硕士学位期间所发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].算法:一种新的权力形态[J]. 治理现代化研究 2020(01)
    • [2].算法决策规制——以算法“解释权”为中心[J]. 现代法学 2020(01)
    • [3].面向宏观基本图的多模式交通路网分区算法[J]. 工业工程 2020(01)
    • [4].算法中的道德物化及问题反思[J]. 大连理工大学学报(社会科学版) 2020(01)
    • [5].算法解释请求权及其权利范畴研究[J]. 甘肃政法学院学报 2020(01)
    • [6].算法新闻的公共性建构研究——基于行动者网络理论的视角[J]. 人民论坛·学术前沿 2020(01)
    • [7].算法的法律性质:言论、商业秘密还是正当程序?[J]. 比较法研究 2020(02)
    • [8].关键词批评视野中的算法文化及其阈限性[J]. 学习与实践 2020(02)
    • [9].掌控还是被掌控——大数据时代有关算法分发的忧患与反思[J]. 新媒体研究 2020(04)
    • [10].美国算法治理政策与实施进路[J]. 环球法律评论 2020(03)
    • [11].算法解释权:科技与法律的双重视角[J]. 苏州大学学报(哲学社会科学版) 2020(02)
    • [12].大数据算法决策的问责与对策研究[J]. 现代情报 2020(06)
    • [13].大数据时代算法歧视的风险防控和法律规制[J]. 河南牧业经济学院学报 2020(02)
    • [14].风险防范下算法的监管路径研究[J]. 审计观察 2019(01)
    • [15].模糊的算法伦理水平——基于传媒业269名算法工程师的实证研究[J]. 新闻大学 2020(05)
    • [16].算法推荐新闻对用户的影响及对策[J]. 新媒体研究 2020(10)
    • [17].如何加强对算法的治理[J]. 国家治理 2020(27)
    • [18].“后真相”背后的算法权力及其公法规制路径[J]. 行政法学研究 2020(04)
    • [19].算法规制的谱系[J]. 中国法学 2020(03)
    • [20].论算法排他权:破除算法偏见的路径选择[J]. 政治与法律 2020(08)
    • [21].政务算法与公共价值:内涵、意义与问题[J]. 国家治理 2020(32)
    • [22].算法的法律规制研究[J]. 上海商业 2020(09)
    • [23].新闻算法分发对隐私权的冲击及规制[J]. 青年记者 2020(27)
    • [24].算法如何平等:算法歧视审查机制的建立[J]. 南海法学 2020(02)
    • [25].蚁群算法在文字识别中的应用研究[J]. 信息与电脑(理论版) 2019(22)
    • [26].大数据聚类算法研究[J]. 无线互联科技 2018(04)
    • [27].RSA算法的改进研究[J]. 计算机与网络 2018(14)
    • [28].智能时代的新内容革命[J]. 国际新闻界 2018(06)
    • [29].改进的负载均衡RSA算法[J]. 电脑知识与技术 2018(25)
    • [30].基于深度学习的视觉跟踪算法研究综述[J]. 计算机科学 2017(S1)

    标签:;  ;  ;  

    基于本体的语义网爬虫的算法研究与应用实现
    下载Doc文档

    猜你喜欢