风险主题网关信息采集模块研究与设计

风险主题网关信息采集模块研究与设计

论文摘要

建设主题网关,是综合风险防范研究的重要组成部分,其中对信息采集技术的研究尤为重要。本文针对主题网关的不同信息来源,采取定向Extractor、深度Extractor两种方式进行信息采集;建立风险知识库,处理采集到的信息,工作主要分为以下三部分:1)针对普通网页信息,采用定向Extractor:定义模板,定向抓取种子站点列表页;采用DOM和启发式规则,实现列表块的定位;提出基于标签距离的列表聚类包装方法,改善聚类效果,实现列表的聚类包装,得到结构化信息项;提出容器距离,改进基于Finn的正文抽取方法,实现信息的正文抽取,完成信息纪录集的抽取。2)针对深度网络中的信息,采用深度Extractor:●表单理解:搜索表单是访问深度网络的唯一接口,首先构造基于逻辑属性的表单逻辑模型;提出表单表达式,基于表单布局识别逻辑属性标签,分析表单元素间语义,构造启发式规则,实现表单逻辑属性的抽取。●表单的提交:以表单逻辑模型为基础,改进提交策略,提出随机排除型提交策略,实现表单的自动提交。●响应页处理:构造启发式规则,抽取响应页对应记录集。3)根据元数据,建立风险数据模型,统一抓取到的数据;建立风险知识库,实现对风险记录的分类,加工及处理。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第1章 绪论
  • 1.1 引言
  • 1.2 研究的意义
  • 1.3 本文的研究内容和论文结构
  • 第2章 Web页面数据采集基础
  • 2.1 相关协议与接口
  • 2.1.1 DOM
  • 2.1.2 Jericho Html Parser
  • 2.2 WEB页面数据采集的相关技术
  • 2.2.1 基于自然语言理解的方法
  • 2.2.2 基于机器学习的方法
  • 2.2.3 基于Ontology的方法
  • 2.2.4 RoadRunner
  • 2.3 术语定义
  • 2.4 本章小结
  • 第3章 定向Extractor设计
  • 3.1 风险种子站点管理
  • 3.2 模板的定义
  • 3.3 方法的选择
  • 3.4 列表页信息抽取
  • 3.4.1 信息列表块的定位
  • 3.4.2 基于标签距离的列表聚类包装方法
  • 3.5 正文的抽取
  • 3.5.1 Finn算法简介
  • 3.5.2 Finn算法的改进
  • 3.6 实验结果及分析
  • 3.7 本章小结
  • 第4章 深度Extractor的设计
  • 4.1 深度Extractor总体框架
  • 4.2 HiWE
  • 4.3 表单理解
  • 4.3.1 建立逻辑模型
  • 4.3.2 表单表达式
  • 4.3.3 LAttribute标签识别
  • 4.3.4 启发式LAttribute提取方法
  • 4.4 表单的提交
  • 4.4.1 表单的自动填写
  • 4.4.2 请求提交策略
  • 4.4.3 随机排除型采样策略
  • 4.4.4 穷举采样
  • 4.5 响应页处理
  • 4.5.1 构造启发式规则
  • 4.5.2 消除重复记录
  • 4.6 实验结果及分析
  • 4.7 本章小结
  • 第5章 综合风险知识库
  • 5.1 构建知识库的目的和流程
  • 5.2 数据统一化
  • 5.3 知识库中表的设计
  • 5.4 JDBC数据库访问及连接池技术
  • 5.5 本章小结
  • 第6章 总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].电力市场环境下家庭智慧能源网关概念及设计[J]. 无线互联科技 2017(05)
    • [2].基于云计算的信息网关安全验证方法研究[J]. 自动化与仪器仪表 2020(07)
    • [3].不能过度依赖网关[J]. 网络安全和信息化 2017(04)
    • [4].物联网ZigBee网关的设计与实现方法[J]. 电子技术与软件工程 2016(24)
    • [5].企业网关虚拟化研究与部署[J]. 电信网技术 2016(01)
    • [6].面向未来网络的移动分组域网关演进分析[J]. 电信网技术 2015(08)
    • [7].企业网关技术和应用研究[J]. 信息通信 2013(08)
    • [8].解析“下一代防火墙、下一代网关”[J]. 信息安全与通信保密 2012(07)
    • [9].Technicolor特艺集团新推3款网关[J]. 电信网技术 2010(12)
    • [10].基于电子商务的支付网关研究[J]. 硅谷 2009(02)
    • [11].主题网关的发展趋势研究[J]. 兰台世界 2009(06)
    • [12].基于差分传输的千兆加速网关[J]. 计算机应用与软件 2017(06)
    • [13].行业网关在通信行业信息化的应用[J]. 数字通信世界 2015(05)
    • [14].多网关自动切换,内外双网通行无阻[J]. 电脑爱好者 2010(03)
    • [15].物联网网关的设计与实现[J]. 广东通信技术 2012(04)
    • [16].国内学科信息主题网关发展研究[J]. 河南理工大学学报(社会科学版) 2011(02)
    • [17].我国主题网关的发展状况及其存在的若干问题[J]. 现代情报 2008(06)
    • [18].一种基于应用网关的呼叫中心平台[J]. 沈阳师范大学学报(自然科学版) 2008(04)
    • [19].汽车网关标准将提升车辆信息安全水平[J]. 智能网联汽车 2020(03)
    • [20].列车多协议通用网关的设计与实现[J]. 工业控制计算机 2017(08)
    • [21].物联网中的网关接入技术问题探讨[J]. 中外企业家 2014(17)
    • [22].基于云存储网关的两点优化设计[J]. 计算机光盘软件与应用 2013(04)
    • [23].支付网关功能及安全浅析[J]. 计算机光盘软件与应用 2012(22)
    • [24].一种安全隧道网关的设计与实现[J]. 微电子学与计算机 2011(04)
    • [25].国内首款可编程网关腾控TG900P全新上市[J]. 工矿自动化 2011(06)
    • [26].一种自适应的动态多机制网关发现算法[J]. 哈尔滨工程大学学报 2010(05)
    • [27].移动自组网网关的能源感知[J]. 哈尔滨工业大学学报 2009(09)
    • [28].基于天翼云对象存储的存储网关建设研究[J]. 江苏通信 2020(04)
    • [29].详析网关管理机制[J]. 网络安全和信息化 2019(10)
    • [30].模拟和防范假冒网关[J]. 网络安全和信息化 2018(03)

    标签:;  ;  ;  ;  

    风险主题网关信息采集模块研究与设计
    下载Doc文档

    猜你喜欢