网络Flash资源爬行器的设计与实现

网络Flash资源爬行器的设计与实现

论文摘要

随着因特网的迅速发展,网络已经成为人们获得信息的必要途径和重要手段,而其中Flash动画媒体类型的资源建设作为教育技术领域的一个重要组成部分日益受到人们的重视。Flash资源以其生动、直观和易于交互等优点在推动教育发展中发挥了重要作用,一方面,互联网技术的发展使得这些Flash资源的发布与共享不再受时间、空间的限制,成为我们获取这些资源的一个重要途径;另一方面,网络资源的巨大丰富且动态更新却又使得我们从中寻找需要的Flash资源变得越来越困难。网络搜索引擎的出现基本上解决了这个问题,使它迅速成为除电子邮件之外最常用的网络工具。根据CNNIC发布的《第26次中国互联网络发展状况统计报告》,截至2010年6月,中国网民达到了4.2亿,互联网普及率攀升至31.8%,中国网站数量为279万个。2010年上半年,搜索引擎在网民中的使用率增长了3个百分点,达76.3%,搜索引擎用户规模已达3.2亿人,增幅达13.9%,这使得传统的通用搜索引擎面对巨大挑战。根据《2010年中国搜索引擎市场调查报告》显示:在任意一天,约有58.8%用户会使用搜索引擎。为了适应特定用户对特定领域查询的需求,各类面向特定主题、信息分类精确、数据全面、更新及时的搜索引擎便应运而生并蓬勃发展起来。网络Flash爬行器是专门为查询和搜索Web中存在的Flash媒体资源而设计的搜索系统。爬行系统从Web网页的网页信息中,高效准确的提取出对Flash动画资源的相关描述,其检索的对象是Flash媒体信息。网络当中包含有大量的Flash动画形式的教育教学资源,从这种海量、异构、动态变化的网络中搜索到可以为教育教学服务的Flash动画形式的教育资源,本文立题正在于此,就是要设计与实现一种网络爬行器,根据包含Flash媒体的网页在互联网上分布的特征,通过一定的算法在尽可能少的耗费计算机资源的情况下快速地搜索到包含有Flash媒体的网页,从Flash资源所在的网页中提取出Flash媒体资源,再从这些素材资源中提取出用于描述、标引Flash媒体资源的语义信息,从而确定Flash媒体资源的主题。将此方法应用到基础教育资源中,这对于学习环境的构建、教育资源信息化的建设具有重要的意义。本文首先对HTML文档的文本信息和标签做了介绍,然后包含Flash资源的网页及其主题页面在Web中的分布特征进行深入分析。在分析和比较现有的Flash资源主题搜索算法的优缺点的基础上,归纳了提高搜索效率的几个关键因素。网络Flash资源爬行器可以作为Flash资源搜索引擎系统的核心组成部分,其负责网络Flash资源的发现与搜集;搜索算法是搜索系统的关键技术,它决定了搜索系统的查准率和查全率;Flash种子搜索原则一般选择网站规模大、所包含Flash数据多、爬行速度快、网页结构合理、搜索效率高的网站作为网络爬行器的种子。本文在原有的搜索系统基础上,对搜索系统的效率和速度进行深入地研究和改进,并对所搜索到的Flash媒体网页集合进行必要的消重化处理,利用网页内容消重和链接消重达到净化多媒体网页集合的目的,使得到的Flash媒体资源更加优化,可以更好应用于教育教学当中。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 教育技术学科背景
  • 1.2 网络爬行器的研究现状
  • 1.2.1 网络爬行器概念叙述
  • 1.2.2 搜索引擎分类
  • 1.3 多媒体主题搜索相关技术介绍
  • 1.3.1 概述
  • 1.3.2 搜索引擎的组成
  • 1.4 论文的研究方法和组织结构
  • 1.4.1 论文的研究方法
  • 1.4.2 论文的组织结构
  • 第二章 网络爬行器的工作原理和搜索算法的改进
  • 2.1 网络爬行器介绍
  • 2.2 网络爬行器的基本组成结构
  • 2.3 网络爬行器的体系结构
  • 2.3.1 控制模块
  • 2.3.2 爬行模块
  • 2.3.3 存储模块
  • 2.4 网络爬行器搜索策略
  • 2.5 网络搜索算法的改进
  • 2.5.1 基于Topic-PageRank 主题搜索算法
  • 2.5.2 基于改进Shark-Search 的多媒体主题搜索算法
  • 2.6 本章小结
  • 第三章 多媒体网页信息分析处理
  • 3.1 超文本传输协议(HTTP)
  • 3.1.1 协议概述
  • 3.1.2 协议功能
  • 3.2 多媒体信息的相关标签
  • 3.3 Web 中主题页面的分布特征
  • 3.3.1 中心页面(Hub)特征
  • 3.3.2 主题关联特征
  • 3.3.3 主题聚集特征
  • 3.3.4 隧道特征
  • 3.4 本章小结
  • 第四章 多媒体Flash 网页资源的消重与净化
  • 4.1 网页重复的特征
  • 4.2 网页消重的经典算法
  • 4.2.1 Shingling 算法
  • 4.2.2 Simhash 算法
  • 4.3 网页正文重复性判断算法描述
  • 4.4 网页消重系统结构
  • 4.5 实验结果分析
  • 4.6 本章小结
  • 第五章 网络Flash 资源爬行器的系统实现
  • 5.1 数据库设计
  • 5.1.1 合并数据库
  • 5.1.2 URLcode 代码转换成网页
  • 5.2 网络Flash 爬行器的运行流程
  • 5.2.1 网络Flash 爬行器爬行种子的搜索
  • 5.2.2 网络Flash 爬行器搜索种子关键词总结
  • 5.3 网络Flash 爬行器的运行过程
  • 5.4 实验结果及分析
  • 5.4.1 硬件环境
  • 5.4.2 参数选择和评价指标
  • 5.4.3 实验结果分析
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 本文的工作总结
  • 6.2 下一步的展望
  • 参考文献
  • 附录网络爬行器各模块的核心类
  • 致谢
  • 攻读硕士学位期间发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    网络Flash资源爬行器的设计与实现
    下载Doc文档

    猜你喜欢