论文摘要
海量URL的管理一直是提高网络爬虫性能的一个瓶颈。现在,网络规模越来越大,更新速度也变得越来越快,这些都促使网络爬虫系统来提高其性能。所以如何高效地管理网络爬虫的海量URL,使之能够满足网络爬虫高性能的要求,也就显得越来越重要了。为了能够解决网络爬虫海量URL的高效管理问题,本文从工程的角度,提出这样一个解决方案。它包括一个基于NC-Trie的索引结构、一个面向NC-Trie的缓存机制和一个基于计算机指令流水思想的任务处理体系结构。首先,根据网络爬虫所要管理的URL都是字符串这一特点,本文选取计算机界公认的处理字符串信息最为高效的结构——Tire结构,来作为网络爬虫海量URL管理的索引结构。但是,Trie结构在高效处理字符串的同时,也存在很多缺点。对存储空间的浪费就是Tire结构的最大缺点。因此针对网络爬虫系统海量URL管理的特点,在原有的Trie结构压缩方法的基础上,本文提出一个改进的Trie压缩结构——NC-Trie。NC-Trie比原有的C-Trie具有更高的压缩率,同时也保持了Trie结构高速访问的优点。其次,由于网络爬虫要管理的URL数量巨大,必须借助外存才能更好地实现高效管理。因此,必须对索引结构进行必要的缓存。针对爬虫系统对URL管理的特点,对于海量URL的索引的缓存,本文将采用最近最少用的替换策略,并采用一个转换后的实现算法,来实施缓存的更新。再者,根据网络爬虫对URL访问的特点,本文使用计算机指令流水的基本思想,对网络爬虫对URL的各种操作进行细分,然后重新进行统筹组合,使之具有更高的并发度,以满足现代计算机的检索计算要求。最后,本文将设计和实现一个面向网络爬虫的URL管理系统。这个系统将包含如下模块:预处理模块、NC-Trie缓存管理模块、记录结构解析模块和硬盘缓存访问管理模块等。该系统的实现,为将来相关算法和实验的研究提供了一个基础平台。
论文目录
相关论文文献
- [1].关于网络爬虫监管的思考[J]. 电子世界 2019(23)
- [2].刍议大数据时代网络爬虫技术在商业银行中的应用[J]. 智能城市 2019(23)
- [3].试论网络爬虫技术在舆情监测中的应用[J]. 科学技术创新 2020(05)
- [4].主题网络爬虫研究综述[J]. 软件导刊 2020(02)
- [5].分布式主题网络爬虫的设计与研究[J]. 科学技术创新 2020(15)
- [6].善用网络爬虫[J]. 网络安全和信息化 2020(05)
- [7].网络爬虫技术在基层平安建设中应用探索[J]. 数字技术与应用 2020(06)
- [8].网络爬虫技术在交通信息获取中的应用综述[J]. 武汉理工大学学报(交通科学与工程版) 2020(03)
- [9].网络爬虫技术在涉林案件监测方面的应用[J]. 福建电脑 2020(08)
- [10].网络爬虫技术的研究与实现[J]. 中国新通信 2019(06)
- [11].主题网络爬虫关键技术的应用探讨[J]. 电脑编程技巧与维护 2018(11)
- [12].“网络爬虫”在税务稽查中的应用研究[J]. 当代经济 2019(05)
- [13].网络爬虫在舆情监测中的实践探索[J]. 电脑知识与技术 2019(19)
- [14].网络爬虫关键技术的应用探讨[J]. 计算机产品与流通 2019(09)
- [15].基于网络爬虫技术的时令旅游信息获取[J]. 物联网技术 2018(05)
- [16].基于匿名网络的网络爬虫设计与实现分析[J]. 计算机产品与流通 2017(12)
- [17].主题网络爬虫抓取策略的研究[J]. 科技广场 2017(04)
- [18].网络爬虫技术在电力产业中的应用[J]. 电子技术与软件工程 2017(18)
- [19].基于网络爬虫的搜索引擎的设计与实现[J]. 电脑知识与技术 2020(30)
- [20].基于网络爬虫的民用运力数据获取[J]. 军事交通学院学报 2020(01)
- [21].国内网络爬虫行业发展情况及监管思考[J]. 江西通信科技 2019(01)
- [22].面向网络爬虫的高可用动态池系统设计与实现[J]. 福建电脑 2019(06)
- [23].基于网络爬虫的军事舆情态势挖掘研究[J]. 电子制作 2018(Z2)
- [24].网络爬虫的专利技术综述[J]. 科技视界 2018(22)
- [25].主题网络爬虫技术在高速公路信息采集中的应用[J]. 烟台大学学报(自然科学与工程版) 2017(03)
- [26].基于排序学习的网络爬虫实现设计[J]. 青年与社会 2019(12)
- [27].一种新的主题网络爬虫爬行策略[J]. 计算机应用与软件 2011(11)
- [28].通过网络爬虫获取舆情数据分析人的行为习惯[J]. 测绘通报 2018(S1)
- [29].网络爬虫针对“反爬”网站的爬取策略分析[J]. 信息与电脑(理论版) 2019(03)
- [30].网络爬虫反爬策略研究[J]. 科技创新与应用 2019(15)