基于JSSh的信息采集技术研究与实现

基于JSSh的信息采集技术研究与实现

论文摘要

互联网作为一种新兴的媒体,与传统的报纸、广播、电视有很大的不同。在互联网上,任何人都可以在论坛、留言版、自建站点、博客等上面发布言论。此外,Web2.0技术的普及,网络上有越来越多由用户生成的内容(User Generated Content)[1],网民既是信息的受众,又是信息的传播者。与报刊和杂志相比,网络媒体传播速度快,受众极广。我国互联网发展迅速,网民不成熟,如果网络监管缺失或者相关法律不健全,在网络上很容易出现虚假、反动、暴力的言论,会严重影响到和谐社会的建设。当前,网络监管部门重点开展的互联网媒体信息监管工作[2][3],旨在把握网络信息动向,引导网络言论,建设和谐网络环境。系统化的网络信息监管工作,主要由信息采集、信息融合和结果呈现三大环节共同组成。在信息采集环节遇到很多技术挑战:部分网络媒体为逃避网络监管,故意发布难以让机器识别的内容,如竖排文章、文字图片、动态网页,部分网络媒体发布内容需要授权才能浏览。网络媒体的发布形式越来越多样化,其中动态网页的比例越来越高,但现有网页获取工具,比如Wget、Pavuk等都不能采集动态网页。为扩展监管对象的范围,有效地提升网络媒体监管系统的功能,在系统信息采集环节,需要实现网站自动身份认证,和对动态网页的采集。作者受到Web自动化功能测试[4]的启发,利用JSSh[5](JavaScript Shell Server)提供的脚本交互接口,实现JSSh客户端与JSSh服务器的通信。JSSh客户端发送指令给JSSh服务器,从而操控Firefox浏览器完成身份认证表单填写和认证Cookie交互,实现自动身份认证。另外,成熟的Web浏览器都有网页排版引擎将Web页面内的HTML、CSS、JavaScript等解析和渲染,在用户端呈现良好的效果。本文利用Firefox网页排版引擎Gecko解析网页内的动态脚本,JSSh客户端从HTML DOM中获取动态网页内容以及链接地址,成功实现动态网页的采集。文章首先阐明本研究工作的意义,然后对身份认证和动态网页基础知识作了介绍。在此基础上,分别对基于JSSh的自动身份认证技术和动态网页采集技术作了详细介绍,并给出基于JSSh的信息采集系统实现。最后通过实验验证了该系统的可行性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 本课题研究的必要性及意义
  • 1.2 研究现状
  • 1.3 论文的研究内容及组织安排
  • 第二章 相关基础知识
  • 2.1 身份认证
  • 2.1.1 双因子认证(two-factor authentication)
  • 2.1.2 一次性口令技术(One-Time Password)
  • 2.1.3 Kerberos 认证服务
  • 2.2 文档对象模型
  • 2.3 动态网页
  • 2.3.1 JavaScript
  • 2.3.2 Ajax
  • 2.4 互联网内容获取模型
  • 2.5 Deep Web
  • 2.6 本章小结
  • 第三章 基于JSSh 的网站自动身份认证
  • 3.1 概述
  • 3.2 基于HTTP Cookie 的网站身份认证过程
  • 3.3 JSSh 工作原理
  • 3.3.1 XPCOM
  • 3.3.2 网页排版引擎(Layout Engine)
  • 3.3.3 JSSh 客户端/服务器工作模式
  • 3.4 网站自动身份认证
  • 3.4.1 身份认证表单自动填写
  • 3.4.2 身份认证及信息请求交互
  • 3.4.3 利用JSSh 采集网站发布内容
  • 3.4.4 利用网页获取工具采集网站发布内容
  • 3.5 本章小结
  • 第四章 基于JSSh 的动态网页采集
  • 4.1 概述
  • 4.2 动态网页解析技术
  • 4.2.1 利用SpiderMonkey 解析动态网页
  • 4.2.2 利用 Rhino 解析动态网页
  • 4.2.3 利用Gecko 解析动态网页
  • 4.3 动态网页DOM 构建
  • 4.4 从DOM 中采集网站发布内容
  • 4.5 动态网页的采集效率
  • 4.6 本章小结
  • 第五章 基于JSSh 的信息采集系统实现
  • 5.1 概述
  • 5.2 FireWatir 简介
  • 5.3 系统实现
  • 5.3.1 自动身份认证模块实现
  • 5.3.2 动态网页采集模块实现
  • 5.4 性能评估实验结果
  • 5.5 本章小结
  • 第六章 总结和展望
  • 6.1 主要结论
  • 6.2 研究展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 相关论文文献

    • [1].WebKit中JsCore的扩展方法[J]. 辽宁省交通高等专科学校学报 2009(05)
    • [2].Mozilla计划开发Windows 8 Metro风格的Firefox浏览器[J]. 硅谷 2012(04)
    • [3].Fennec:一只小“火狐”[J]. 互联网天地 2010(04)
    • [4].微印:把微博印成书[J]. 致富时代 2013(10)
    • [5].互联网浏览器引擎:W3C标准与性能的角逐[J]. 新电脑 2008(04)
    • [6].先进的金属板材套料工艺探究[J]. 科技与企业 2011(10)
    • [7].从今天起,我们重新认识浏览器(上)[J]. 中国信息技术教育 2019(01)
    • [8].一种嵌入式浏览器在数字电视中的应用与研究[J]. 电脑知识与技术 2012(31)
    • [9].新一代浏览器标准化研究[J]. 信息技术与标准化 2013(09)

    标签:;  ;  ;  ;  

    基于JSSh的信息采集技术研究与实现
    下载Doc文档

    猜你喜欢