互联网热点话题的数据采集及数据集建立

互联网热点话题的数据采集及数据集建立

论文摘要

近期,基于复杂网络的热点话题涌现现象开始引起诸多领域的关注。热点话题的涌现,社区发现等研究也开始兴起。在对热点话题进行研究的前提就是要对互联网上相关话题数据进行采集并建立标准数据集合。本论文针对目前互联网中信息来源进行分析,综合了内容分析和链接分析两个方面,对论坛、博客、新闻和微博进行了页面结构化分析,提出一种基于视觉特性的包装器归纳方法针对互联网数据进行采集,最终建立数据集。本论文主要有四个方面的工作:首先,对网站中的信息内容网页进行结构化分析。将页面按照分块理论进行归纳,总结出内容块,功能块和链接块三种不同特性的块,从而抽象出页面模型。其次,在总结了不同页面抽取算法的情况下,重点研究了基于人类视觉特性的页面提取算法,即按照人类阅读的视觉特性,将页面上的被关注信息提取出视觉特性的统计特征。第三,设计了一套从基于爬虫技术的爬取器,到基于视觉特性的统计特征的包装器完整的信息抽取系统。本文实验采集了10个网站的300个互联网页,通过统计特征提取建立了数据样本集合。最后利用样本中的页面进行测试,查准率,查全率以及F-score都在90%以上。第四,对网上非常热门的微博网站嘀咕网进行了数据的采集工作,并建立的标准数据集。节点数200862,好友关系数4345668,跟随关系数4344453。建立成标准集以供研究使用。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景
  • 1.2 课题概述
  • 1.3 课题的研究意义
  • 1.4 课题研究成果
  • 1.4.1 研究主要对象
  • 1.4.2 研究主要工作
  • 1.4.3 本文结构简介
  • 第二章 页面结构分析
  • 2.1 网页结构归类
  • 2.2 网页分块定义
  • 2.2.1 页面的嵌套
  • 2.2.2 页面属性分块
  • 2.3 网页分块特征抽取
  • 2.3.1 容器块特征抽取
  • 2.3.2 内部块特征抽取
  • 第三章 信息抽取的算法
  • 3.1 数据采集的流程简介
  • 3.2 Web信息抽取方法简介
  • 3.2.1 自然语言处理数据抽取
  • 3.2.2 包装器数据抽取
  • 3.2.3 基于html结构的数据抽取
  • 3.2.4 基于ontology的数据抽取
  • 3.3 包装器介绍
  • 3.4 页面处理算法
  • 3.4.1 算法的二层关系
  • 3.4.2 模板抽取方法
  • 3.4.3 DOM树分割算法
  • 3.4.4 基于视觉分块算法
  • 第四章 页面信息数据采集系统
  • 4.1 页面信息数据采集系统设计
  • 4.1.1 系统设计思路
  • 4.1.2 互联网页面获取
  • 4.1.3 系统结构图设计
  • 4.1.4 系统配置文档及代码设计
  • 4.2 信息获取中的样本训练
  • 4.2.1 页面预处理
  • 4.2.2 样本集特征提取
  • 4.3 样本特征量化方法
  • 4.4 根据特征的分类器设计实现
  • 第五章 数据集建立及数据集结果
  • 5.1 基于数据库建立的数据集存储
  • 5.2 基于Hadoop应用的HBase建立
  • 5.2.1 Hadoop简介
  • 5.2.2 基于Hadoop应用的HBase简介
  • 5.3 已建立数据集简介
  • 第六章 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    互联网热点话题的数据采集及数据集建立
    下载Doc文档

    猜你喜欢