基于文档分类及超链接优选策略主题蜘蛛的研究与实现

基于文档分类及超链接优选策略主题蜘蛛的研究与实现

论文摘要

随着Internet的迅速发展,网络信息增长的速度与人们获取所需信息能力之间的矛盾越来越突出。搜索引擎这一新兴技术也越来越体现出其自身的重要价值。作为搜索引擎的数据后勤保障,网络蜘蛛的发展也越来越迅速。论文从研究互联网络上信息的分布特征入手,对“主题网络蜘蛛”这一新型的网络蜘蛛原理、策略、结构、工作模式、调度机制以及实现上进行了深入的分析研究。论文设计了一个主题网络蜘蛛系统——Focus CrawlingSpider,在Windows环境下采用C++实现了该系统。在Focus Crawling Spider系统的页面主题相关性判定策略中引入了文档自动分类的思想,提出了基于简单向量距离法、KNN算法以及朴素贝叶斯算法综合对页面进行主题相关性判定的页面相关性的方法;同时在URL剪枝部分,论文提出了将“侵入式鱼群算法(Invasive Fish Search,IFS)”应用于Focus Crawling Spider系统,增强了该系统穿越“隧道”的能力,增加了该系统的爬行覆盖率。论文对Focus Crawling Spider系统的各个功能模块的设计与实现都进行了详细的论述,包括大量的效率瓶颈的分析以及解决方案。在系统结构、页面采集、URL(Uniform Resource Locator,URL)管理、URL评价、DNS(DomainName Server,DNS)缓存系统、DOM(Document Object Model,DOM)结构生成、HTML(Hypertext Markup Language,HTML)解析等方面都提出并实现了一些创新点。论文从运行效率和爬行策略的改进效果等方面对Focus Crawling Spider系统进行了运行测试。通过对测试数据的分析比较,得到了较好的结果。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 网络蜘蛛的研究现状
  • 1.3 课题研究意义
  • 1.4 论文内容安排
  • 第2章 网络蜘蛛及相关算法研究
  • 2.1 通用蜘蛛系统与主题蜘蛛系统
  • 2.1.1 通用蜘蛛系统
  • 2.1.2 通用蜘蛛系统的不足
  • 2.1.3 主题蜘蛛的原理概述
  • 2.1.4 主题蜘蛛的结构模型
  • 2.2 面向主题的信息提取的划分
  • 2.3 网络主题页面分布特性
  • 2.3.1 中心页面特性
  • 2.3.2 主题关联及主题聚集特性
  • 2.3.3 “隧道”特性
  • 2.4 Web结构链接挖掘策略
  • 2.5 基于文字内容的URL主题相关性评价启发策略
  • 2.6 页面主题相关性判定策略
  • 2.6.1 向量空间模型(VSM)
  • 2.6.2 页面信息抽取与逆文档频率指数
  • 2.6.3 训练与分类方法简介
  • 2.7 本章小节
  • 第3章 主题蜘蛛系统总体设计
  • 3.1 运行环境及需求分析
  • 3.1.1 系统运行环境分析
  • 3.1.2 Focus Crawling Spider系统需求分析
  • 3.1.3 运行平台的配置要求及开发工具
  • 3.2 系统总体设计
  • 3.2.1 系统设计目标
  • 3.2.2 系统工作模型
  • 3.2.3 系统功能模块
  • 3.3 系统控制及异常处理
  • 3.3.1 系统控制策略
  • 3.3.2 系统日志
  • 3.3.3 基于TLS的Last Error异常及错误处理
  • 3.4 本章小结
  • 第4章 主题蜘蛛系统的详细设计及实现
  • 4.1 系统工作流程
  • 4.1.1 系统详细流程
  • 4.1.2 各类常见的异常以及处理策略
  • 4.1.3 线程同步及共享策略选择及实现
  • 4.2 网络交互及数据采集
  • 4.2.1 HTTP协议及资源文件传输
  • 4.2.2 基于WSAEventSelect模型的数据采集
  • 4.2.3 高效的DNS缓存实现
  • 4.3 页面预处理及DOM结构生成器
  • 4.3.1 设计方案
  • 4.3.2 HTML标签识别
  • 4.3.3 网页DOM结构地图及生成器
  • 4.4 URL队列、URL提取以及URL判重
  • 4.4.1 URL优先级队列
  • 4.4.2 URL及锚文本提取
  • 4.4.3 基于MD5及Bloom Filter的URL判重实现
  • 4.5 URL评价剪枝
  • 4.5.1 URL评价策略
  • 4.5.2 数据结构设计
  • 4.6 页面主题相关性判定模块
  • 4.6.1 页面正文内容提取与过滤
  • 4.6.2 主题设定及带权特征词条向量
  • 4.6.3 训练样本集模拟实现
  • 4.6.4 基于贝叶斯、KNN及向量距离法的主题判定策略
  • 4.7 本章小节
  • 第5章 系统的运行、测试及结果分析
  • 5.1 系统的运行
  • 5.1.1 全局数据的初始化
  • 5.1.2 系统运行参数配置
  • 5.1.3 输出信息
  • 5.2 系统测试
  • 5.2.1 性能指标
  • 5.2.2 测试环境
  • 5.2.3 系统测试
  • 第6章 总结与展望
  • 6.1 全文总结
  • 6.2 下一步工作的展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表论文
  • 相关论文文献

    • [1].基于搜索引擎日志的关联规则挖掘及统计分析[J]. 电子世界 2020(16)
    • [2].人的记忆、搜索引擎与新闻传播学研究——搜索引擎批判[J]. 新闻界 2019(01)
    • [3].关于搜索引擎的隐喻及对其内容呈现的反思[J]. 青年记者 2019(22)
    • [4].国内社会化搜索引擎发展状况分析[J]. 情报探索 2019(10)
    • [5].搜索引擎的广告拍卖平台设计与开发[J]. 电脑与电信 2017(12)
    • [6].搜索引擎浅谈[J]. 电信网技术 2018(04)
    • [7].搜索引擎的功能及其局域性分析研究[J]. 山东工业技术 2018(22)
    • [8].搜索引擎及其教学应用分析[J]. 广西政法管理干部学院学报 2016(03)
    • [9].国内两大搜索引擎对修改标题的降权规则[J]. 计算机与网络 2016(23)
    • [10].综合搜索引擎与垂直搜索引擎的比较[J]. 通讯世界 2017(06)
    • [11].搜索引擎排名的八大优化原则[J]. 计算机与网络 2017(12)
    • [12].互联网搜索引擎变革与图书馆服务创新[J]. 重庆科技学院学报(社会科学版) 2017(03)
    • [13].监管搜索引擎付费排名的国际经验[J]. 智慧中国 2016(05)
    • [14].什么是搜索引擎蜘蛛抓取份额[J]. 计算机与网络 2017(16)
    • [15].元搜索中成员搜索引擎的选择问题研究[J]. 计算机科学 2017(10)
    • [16].你会对搜索引擎产生依赖吗?[J]. 上海信息化 2017(10)
    • [17].搜索引擎依赖对大学生学习的影响及干预措施探讨[J]. 广西教育学院学报 2016(01)
    • [18].面向高校学生的搜索引擎评价研究[J]. 电脑知识与技术 2016(03)
    • [19].计算机搜索引擎中潜藏的隐私安全问题思考[J]. 电脑知识与技术 2016(07)
    • [20].基于多重随机k维树地震搜索引擎的建立[J]. 防灾减灾学报 2014(04)
    • [21].搜索引擎的研究与实现[J]. 山东农业工程学院学报 2015(02)
    • [22].不同意图类别查询的搜索引擎稳定性分析[J]. 情报杂志 2015(06)
    • [23].互联网搜索引擎在翻译课堂上的应用[J]. 文教资料 2020(11)
    • [24].离开“搜索引擎”,我们还会思考吗[J]. 教育家 2020(34)
    • [25].搜索引擎发展概述[J]. 商业故事 2019(07)
    • [26].图解免费搜索引擎(次主流中文篇)[J]. 电脑爱好者(普及版) 2008(11)
    • [27].到底谁能搜得更好 主流搜索引擎实用评测[J]. 电脑爱好者 2013(07)
    • [28].图解免费搜索引擎(主流综合篇)[J]. 电脑爱好者(普及版) 2008(10)
    • [29].搜索引擎也认人?[J]. 电脑爱好者 2009(12)
    • [30].像人一样思索的搜索引擎[J]. 电脑爱好者 2009(16)

    标签:;  ;  ;  ;  

    基于文档分类及超链接优选策略主题蜘蛛的研究与实现
    下载Doc文档

    猜你喜欢