基于页面分析的主题网络爬虫的研究

基于页面分析的主题网络爬虫的研究

论文摘要

随着互联网上Web资源的迅猛增长,在庞大的互联网上,快速准确全面地找到与用户查询主题相关的信息变得越来越难。人们对检索质量和速度的要求越来越高,由于传统的全网网络爬虫爬取的主题范围过于广泛,信息的及时性及与主题的相关性都无法保证,导致其检索结果的时效性、准确性及检索效率都不尽人意,已满足不了特定领域用户的精确搜索的需求。为此,本文展开了对高页面时效性、高内容相关性的主题网络爬虫的研究。本文对目前存在的网络爬虫的种类、原理及发展状况进行了研究,对比分析了通用爬虫和主题爬虫的结构及工作原理,展示了主题网络爬虫的各项优势。本文通过对《知网》的语义分析及语义相关性理论的研究和对传统向量空间模型的分析,针对原有的页面内容与主题的相关性判定算法存在的缺陷,提出了一种基于页面分析的主题网络爬虫。该主题爬虫摒弃了传统主题爬虫在关于页面与主题相关性判定所采用的传统向量空间模型算法,采用了结合《知网》提出的具有语义分析功能的基于Web页面特点的改进向量空间模型算法,实验表明该模型在进行页面内容与主题相关性判定过程中起到了有效作用。本文的重点是研究基于页面分析的主题网络爬虫的页面过滤算法。它采用《知网》语义分析技术和向量空间模型相结合的方法对传统的页面与主题相关性判定算法——向量空间模型(VSM)进行改进。改进后的算法利用《知网》进行词义消歧,相关度计算以及主题文本义原集的提取,同时考虑到Web网页的半结构化特点,即Web网页上不同位置的文本特征项对整个Web页面主题内容的表达能力是不同的,引入了适应Web页面结构的位置权重,采用多层向量空间模型将Web页面划分成N层结构,不同层次的文本结合其位置权重分别计算与主题的相似度。该算法在加入语义分析的基础上更适合于主题爬虫的Web页面的相似度计算,对主题网络爬虫抓取页面的准确率、页面利用率及爬虫的效率上都有所提高。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的研究背景和意义
  • 1.2 网络爬虫概述
  • 1.2.1 网络爬虫的基本原理
  • 1.2.2 网络爬虫的基本结构
  • 1.3 网络爬虫研究现状
  • 1.4 网络爬虫面临的主要问题和解决手段
  • 1.5 本文研究的内容及组织结构
  • 1.5.1 本文研究的内容
  • 1.5.2 论文的组织结构
  • 第2章 基于页面分析的主题网络爬虫的初步研究
  • 2.1 主题网络爬虫的采集方法
  • 2.2 基于页面分析的主题网络爬虫的工作原理
  • 2.3 基于页面分析的主题网络爬虫的优点
  • 2.4 基于页面分析的主题网络爬虫模型
  • 2.5 页面分析
  • 2.5.1 HTML页面的结构
  • 2.5.2 页面中正文的提取
  • 2.5.3 页面中标题的提取
  • 2.5.4 页面中内容描述的提取别
  • 第3章 基于知网的语义分析技术
  • 3.1 知网相关介绍
  • 3.1.1 知网的特色
  • 3.1.2 知网对词语的描述
  • 3.1.3 知网的结构及相关性理论
  • 3.2 基于知网的词语相关度计算及词义消歧
  • 3.2.1 相关度概念
  • 3.2.2 词义消歧
  • 3.3 基于知网的主题义原集提取
  • 3.3.1 主题关键词和主题本文的获取
  • 3.3.2 生成主题义原集
  • 3.4 基于知网的词语相似度计算
  • 3.4.1 词语相似度的概念
  • 3.4.2 基于知网的词语相似度计算
  • 3.4.3 义原相似度
  • 第4章 页面与主题相关性判定算法研究
  • 4.1 传统向量空间模型VSM的分析
  • 4.1.1 TF-IDF算法
  • 4.1.2 相关概念
  • 4.1.3 传统向量空间模型
  • 4.1.4 传统向量空间模型分析
  • 4.2 基于Web结构的向量空间模型
  • 4.2.1 改进思路
  • 4.2.2 改进的向量空间模型
  • 4.3 基于知网的Web页面与主题相关性判定算法
  • 第5章 WebSpider系统设计及实验
  • 5.1 系统设计
  • 5.2 复杂度分析
  • 5.3 实验
  • 5.3.1 评估指标
  • 5.3.2 主题和种子URL
  • 5.3.3 实验结果及分析
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 进一步的研究工作
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的论文和参加科研项目情况
  • 相关论文文献

    • [1].基于局部语义相关性的定义文本义原预测[J]. 中文信息学报 2020(05)
    • [2].基于知网义原信息量的词语相似度计算方法[J]. 软件导刊 2015(06)
    • [3].一种基于义原信息量的词语相似度计算方法[J]. 电脑与信息技术 2015(03)
    • [4].收手[J]. 东西南北 2010(08)
    • [5].一种实例库与义原关系相结合的概念消歧算法[J]. 首都师范大学学报(自然科学版) 2016(03)
    • [6].基于《知网》义原空间的文本相似度计算[J]. 科学技术与工程 2013(29)
    • [7].基于知网义原词向量表示的无监督词义消歧方法[J]. 中文信息学报 2015(06)
    • [8].一种改进的基于本体概念相似度计算方法研究[J]. 南京邮电大学学报(自然科学版) 2011(06)
    • [9].基于角度—相似度转换模型的义原相似度计算[J]. 浙江工业大学学报 2017(06)
    • [10].基于逆概念频率的词语相似度计算[J]. 厦门大学学报(自然科学版) 2015(02)
    • [11].词语转喻变义及其族群现象中的义原桥接[J]. 广西民族大学学报(哲学社会科学版) 2015(06)
    • [12].基于义原关系的多策略汉语词义消歧方法[J]. 大连理工大学学报 2010(04)
    • [13].基于《知网》的词语语义相似度改进算法研究[J]. 计算机工程 2015(02)
    • [14].一种改进的基于《知网》的词语相似度计算方法[J]. 计算机应用 2009(01)
    • [15].面向语义检索的中医理论知识库构建方法的研究[J]. 中文信息学报 2012(05)
    • [16].基于知网的词汇语义相似度计算方法研究[J]. 计算机应用研究 2010(09)
    • [17].基于HowNet的词语相关度计算模型[J]. 微型机与应用 2012(08)
    • [18].基于知网的中文词语相似度计算[J]. 智能计算机与应用 2015(03)
    • [19].中文问句分类特征的研究[J]. 计算机应用与软件 2012(03)
    • [20].基于语义相似度的共词分析方法研究[J]. 图书馆学刊 2017(01)
    • [21].借重于人工知识库的词和义项的向量表示:以HowNet为例[J]. 中文信息学报 2016(06)
    • [22].忠于文本的《离骚》题义原探[J]. 山花 2011(12)
    • [23].基于匈牙利算法的语义相似度分析在信息安全泄密检查中的应用[J]. 新乡学院学报(自然科学版) 2010(06)
    • [24].一种频率增强的语句语义相似度计算[J]. 湖南大学学报(自然科学版) 2013(02)
    • [25].“厨”义原流与“厨柜”文化漫议[J]. 楚雄师范学院学报 2015(08)
    • [26].她们为什么迷“耽美”[J]. 大众心理学 2010(06)
    • [27].基于HowNet的论文复制检测关键技术研究[J]. 福建师范大学学报(自然科学版) 2011(06)
    • [28].面向网络舆情分析的语义相似度算法研究[J]. 山东科学 2014(06)
    • [29].网络文章中句子倾向性判别的方法研究[J]. 信息网络安全 2012(03)
    • [30].一种基于Hownet的词向量表示方法[J]. 北京大学学报(自然科学版) 2019(01)

    标签:;  ;  ;  ;  

    基于页面分析的主题网络爬虫的研究
    下载Doc文档

    猜你喜欢