论文摘要
随着因特网的迅速发展,网络已经成为人们获得信息的必要途径和重要手段,而其中Flash动画媒体类型的资源建设作为教育技术领域的一个重要组成部分日益受到人们的重视。Flash资源以其生动、直观和易于交互等优点在推动教育发展中发挥了重要作用,一方面,互联网技术的发展使得这些Flash资源的发布与共享不再受时间、空间的限制,成为我们获取这些资源的一个重要途径;另一方面,网络资源的巨大丰富且动态更新却又使得我们从中寻找需要的Flash资源变得越来越困难。网络搜索引擎的出现基本上解决了这个问题,使它迅速成为除电子邮件之外最常用的网络工具。根据CNNIC发布的《第26次中国互联网络发展状况统计报告》,截至2010年6月,中国网民达到了4.2亿,互联网普及率攀升至31.8%,中国网站数量为279万个。2010年上半年,搜索引擎在网民中的使用率增长了3个百分点,达76.3%,搜索引擎用户规模已达3.2亿人,增幅达13.9%,这使得传统的通用搜索引擎面对巨大挑战。根据《2010年中国搜索引擎市场调查报告》显示:在任意一天,约有58.8%用户会使用搜索引擎。为了适应特定用户对特定领域查询的需求,各类面向特定主题、信息分类精确、数据全面、更新及时的搜索引擎便应运而生并蓬勃发展起来。网络Flash爬行器是专门为查询和搜索Web中存在的Flash媒体资源而设计的搜索系统。爬行系统从Web网页的网页信息中,高效准确的提取出对Flash动画资源的相关描述,其检索的对象是Flash媒体信息。网络当中包含有大量的Flash动画形式的教育教学资源,从这种海量、异构、动态变化的网络中搜索到可以为教育教学服务的Flash动画形式的教育资源,本文立题正在于此,就是要设计与实现一种网络爬行器,根据包含Flash媒体的网页在互联网上分布的特征,通过一定的算法在尽可能少的耗费计算机资源的情况下快速地搜索到包含有Flash媒体的网页,从Flash资源所在的网页中提取出Flash媒体资源,再从这些素材资源中提取出用于描述、标引Flash媒体资源的语义信息,从而确定Flash媒体资源的主题。将此方法应用到基础教育资源中,这对于学习环境的构建、教育资源信息化的建设具有重要的意义。本文首先对HTML文档的文本信息和标签做了介绍,然后包含Flash资源的网页及其主题页面在Web中的分布特征进行深入分析。在分析和比较现有的Flash资源主题搜索算法的优缺点的基础上,归纳了提高搜索效率的几个关键因素。网络Flash资源爬行器可以作为Flash资源搜索引擎系统的核心组成部分,其负责网络Flash资源的发现与搜集;搜索算法是搜索系统的关键技术,它决定了搜索系统的查准率和查全率;Flash种子搜索原则一般选择网站规模大、所包含Flash数据多、爬行速度快、网页结构合理、搜索效率高的网站作为网络爬行器的种子。本文在原有的搜索系统基础上,对搜索系统的效率和速度进行深入地研究和改进,并对所搜索到的Flash媒体网页集合进行必要的消重化处理,利用网页内容消重和链接消重达到净化多媒体网页集合的目的,使得到的Flash媒体资源更加优化,可以更好应用于教育教学当中。