论文摘要
近期,基于复杂网络的热点话题涌现现象开始引起诸多领域的关注。热点话题的涌现,社区发现等研究也开始兴起。在对热点话题进行研究的前提就是要对互联网上相关话题数据进行采集并建立标准数据集合。本论文针对目前互联网中信息来源进行分析,综合了内容分析和链接分析两个方面,对论坛、博客、新闻和微博进行了页面结构化分析,提出一种基于视觉特性的包装器归纳方法针对互联网数据进行采集,最终建立数据集。本论文主要有四个方面的工作:首先,对网站中的信息内容网页进行结构化分析。将页面按照分块理论进行归纳,总结出内容块,功能块和链接块三种不同特性的块,从而抽象出页面模型。其次,在总结了不同页面抽取算法的情况下,重点研究了基于人类视觉特性的页面提取算法,即按照人类阅读的视觉特性,将页面上的被关注信息提取出视觉特性的统计特征。第三,设计了一套从基于爬虫技术的爬取器,到基于视觉特性的统计特征的包装器完整的信息抽取系统。本文实验采集了10个网站的300个互联网页,通过统计特征提取建立了数据样本集合。最后利用样本中的页面进行测试,查准率,查全率以及F-score都在90%以上。第四,对网上非常热门的微博网站嘀咕网进行了数据的采集工作,并建立的标准数据集。节点数200862,好友关系数4345668,跟随关系数4344453。建立成标准集以供研究使用。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题背景1.2 课题概述1.3 课题的研究意义1.4 课题研究成果1.4.1 研究主要对象1.4.2 研究主要工作1.4.3 本文结构简介第二章 页面结构分析2.1 网页结构归类2.2 网页分块定义2.2.1 页面的嵌套2.2.2 页面属性分块2.3 网页分块特征抽取2.3.1 容器块特征抽取2.3.2 内部块特征抽取第三章 信息抽取的算法3.1 数据采集的流程简介3.2 Web信息抽取方法简介3.2.1 自然语言处理数据抽取3.2.2 包装器数据抽取3.2.3 基于html结构的数据抽取3.2.4 基于ontology的数据抽取3.3 包装器介绍3.4 页面处理算法3.4.1 算法的二层关系3.4.2 模板抽取方法3.4.3 DOM树分割算法3.4.4 基于视觉分块算法第四章 页面信息数据采集系统4.1 页面信息数据采集系统设计4.1.1 系统设计思路4.1.2 互联网页面获取4.1.3 系统结构图设计4.1.4 系统配置文档及代码设计4.2 信息获取中的样本训练4.2.1 页面预处理4.2.2 样本集特征提取4.3 样本特征量化方法4.4 根据特征的分类器设计实现第五章 数据集建立及数据集结果5.1 基于数据库建立的数据集存储5.2 基于Hadoop应用的HBase建立5.2.1 Hadoop简介5.2.2 基于Hadoop应用的HBase简介5.3 已建立数据集简介第六章 总结与展望参考文献致谢攻读学位期间发表的学术论文
相关论文文献
标签:数据采集论文; 视觉特性论文; 包装器归纳论文; 数据集建立论文;