网络信息监控分析系统的研究与设计

网络信息监控分析系统的研究与设计

论文摘要

随着WWW技术的日益成熟和互联网应用的逐渐普及,互联网已经发展成为了一个巨大的分布式信息空间。从Web中获取信息已成为个人获取知识的主要方法和重要手段,也成为当前企业获取情报的重要途径。但是,面对浩如烟海的网络信息,传统的人工搜集和处理等方法都已难以胜任。而且由于Web的组织格式主要以HTML页面这种半结构化的形式为主,其本身具有无结构性、超链接的自由无序、以及内容的海量性、多样性和动态变化等特点。采用普通的搜索引擎,在某种程度上提高了检索的效率和速度,但针对特定领域信息的搜索,仍然存在着有效性(指如何滤除相关度较低的信息)和命中率(指如何降低漏掉的有用)太低的问题。本文根据现今应用最广泛的HTML网页信息的特点,在对现有信息搜集、预处理和自动分类等网络信息处理技术进行深入的分析与研究的基础上,针对目前信息搜集技术的不足,设计开发了一个基于汽车信息领域的网络信息监控分析系统,实现了通过互联网实时定向地自动捕捉多个门户网站以及专门网站关于汽车领域的“有用”信息的功能。本文重点研究了该系统中网络信息收集子系统、智能分析预归类子系统的设计与实现,这两个子系统成功地实现了网络信息的采集、预处理和自动分类等功能,是系统的核心部分。本文研究的重要创新点是在网络信息收集子系统的设计中引入了多线程非递归方式、并行结构技术,有效地提高了系统的速度和效率;在并行结构技术的实现中,应用了并行采集的交换模式,有效地解决了网页重抓、漏抓的问题;并在网页采集过程中采用了URL过滤技术,在网页分类过程中利用阀值方法过滤无用信息,较大地提高了信息的有效性。此外,网络信息监控分析系统经过某汽车信息咨询有限公司的多次测试,验证了其可行性和有效性,在实际应用中,该系统也取得了良好的效果,较好地满足了客户的业务需求。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 国内外现状
  • 1.3.1 国外现状
  • 1.3.2 国内现状
  • 1.4 本文主要工作及创新点
  • 1.5 本文结构
  • 第二章 网络信息监控分析系统基本原理
  • 2.1 相关概念介绍
  • 2.1.1 监控分析
  • 2.1.2 网络信息监控分析系统
  • 2.2 网页采集技术介绍
  • 2.2.1 主要问题
  • 2.2.2 网页采集方法
  • 2.3 网页清洗技术介绍
  • 2.3.1 基于DOM 的分块方法
  • 2.3.2 网页洗清方法
  • 2.4 网页分类技术介绍
  • 2.4.1 文本分类预处理
  • 2.4.2 文本分类算法
  • 第三章 网络信息监控分析系统设计与实现
  • 3.1 系统需求分析
  • 3.1.1 系统功能分析
  • 3.1.2 系统性能分析
  • 3.1.3 数据库需求分析
  • 3.2 系统总体设计
  • 3.2.1 系统框架设计
  • 3.2.2 子系统的设计与实现
  • 3.3 数据库设计与实现
  • 3.3.1 数据库具体分析
  • 3.3.2 数据库设计
  • 第四章 网络信息收集子系统设计与实现
  • 4.1 工作流程
  • 4.1.1 初始URL 的选择
  • 4.1.2 网页采集
  • 4.1.3 网页预处理
  • 4.1.4 数据存储
  • 4.2 主要算法
  • 4.2.1 抓取算法
  • 4.2.2 页面清洗算法
  • 4.3 主要改进
  • 4.3.1 抓取方法改进
  • 4.3.2 技术改进
  • 4.4 实验结果
  • 4.4.1 URL 采集实验结果
  • 4.4.2 网页采集实验结果
  • 4.4.3 网页清洗实验结果
  • 第五章 智能分析预归类子系统设计与实现
  • 5.1 功能模块
  • 5.2 工作流程
  • 5.3 主要算法描述及实现
  • 5.3.1 文本预处理算法
  • 5.3.2 构造分类器过程
  • 5.3.3 分类过程
  • 5.4 技术改进
  • 5.5 实验结果
  • 第六章 结论
  • 6.1 本文工作总结
  • 6.2 进一步工作
  • 参考文献
  • 后记
  • 在学期间公开发表论文及著作情况
  • 相关论文文献

    • [1].色彩元素在网页设计中的研究与运用微探[J]. 流行色 2019(11)
    • [2].文字、图形、色彩在网页设计中的应用[J]. 环球首映 2019(09)
    • [3].在社团活动课程化中实现师生共同成长——网页设计与制作校本课程开发与实施心得[J]. 中学教学参考 2020(09)
    • [4].插画元素对网页设计风格实现的影响[J]. 大观 2020(04)
    • [5].浅析创新思维在网页设计教学中的应用[J]. 中国文艺家 2020(04)
    • [6].探讨网页设计在平面设计中的运用[J]. 艺术家 2020(04)
    • [7].网页设计中动态多元素应用研究[J]. 数码世界 2020(07)
    • [8].下一代网页[J]. 电脑爱好者 2012(01)
    • [9].她!让误关网页“还魂”[J]. 电脑爱好者 2008(05)
    • [10].做个小网页 看看谁在线[J]. 电脑爱好者(普及版) 2008(07)
    • [11].简单两步 网页在线抓[J]. 电脑爱好者(普及版) 2008(08)
    • [12].申请QQ号易如反掌[J]. 电脑爱好者(普及版) 2008(09)
    • [13].节约用纸,网页我只打印想要的[J]. 电脑爱好者 2009(08)
    • [14].我要正常看网页[J]. 电脑迷 2009(23)
    • [15].网页打印 只打我要的部分[J]. 电脑迷 2010(06)
    • [16].高职网页设计课程教学研究——网页设计的三个原则[J]. 科教文汇(下旬刊) 2011(07)
    • [17].复制受限网页 不用那么麻烦[J]. 电脑爱好者 2011(07)
    • [18].打印网页 只“剪”你需要的[J]. 电脑爱好者 2011(20)
    • [19].网页打印时拒绝图片广告[J]. 电脑迷 2012(04)
    • [20].省墨 网页先“删”后“打”[J]. 电脑爱好者 2012(04)
    • [21].发送文件链接,网页直接查看[J]. 电脑迷 2012(10)
    • [22].让你的网页告别“失焦”[J]. 电脑爱好者 2012(18)
    • [23].中职网页设计教学的初步探讨[J]. 新课程研究(中旬刊) 2014(02)
    • [24].谈计算机网页设计中的布局[J]. 中国校外教育 2014(25)
    • [25].网页“剪报”方法多[J]. 电脑爱好者 2013(24)
    • [26].高职计算机应用技术专业网页设计课程改革初探[J]. 科教文汇(下旬刊) 2014(12)
    • [27].中职《网页设计》课程教学方法初探[J]. 学周刊 2015(12)
    • [28].如何留住精彩网页[J]. 电脑爱好者 2016(18)
    • [29].网页设计中计算机图像处理技术应用解析[J]. 电脑迷 2016(09)
    • [30].浅谈网页设计的艺术表现形式[J]. 电脑迷 2016(11)

    标签:;  ;  ;  ;  ;  ;  

    网络信息监控分析系统的研究与设计
    下载Doc文档

    猜你喜欢