新闻信息采集系统的设计与实现

新闻信息采集系统的设计与实现

论文摘要

网络新闻信息的自动采集对于新闻网页的自动分类、自动摘要、敏感信息监测以及Web挖掘等应用十分重要。本文以半结构化的新闻网页为对象,研究如何从纷繁复杂的网络空间中采集各种新闻网页以及如何抽取其中的新闻正文两个问题,给出新闻信息采集系统的方案并予以实现,主要工作包括:1)基于B/S架构,对新闻信息采集系统进行了总体设计,将系统划分为元搜索引擎和信息抽取两大子系统,并分别对各子系统进行了详细的模块设计。2)给出了元搜索引擎子系统的关键技术实现,其中采用多线程技术实现系统与搜索源的并行交互,采用正则表达式实现搜索结果的解析。在此基础上,设计并实现了搜索结果的去重和排序策略。3)在对新闻网页的标签结构进行深入分析的基础上,提出了最小table块的概念,并通过构建网页的table标签树,将新闻正文抽取问题转换为寻找最小table块问题,进而基于贝叶斯理论提出一种新闻网页的正文文本抽取方法,实现了新闻正文的抽取。实验结果表明,本文设计的新闻信息采集系统方案切实可行,正文抽取算法准确、高效,初步实现了新闻信息采集的自动化。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 问题提出的背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 元搜索引擎
  • 1.2.2 信息抽取
  • 1.3 本文主要工作
  • 1.4 论文结构
  • 第二章 新闻信息采集系统的设计
  • 2.1 系统框架结构
  • 2.1.1 浏览器/服务器(B/S)模式
  • 2.1.2 系统架构
  • 2.2 系统模块设计
  • 2.2.1 信息规整模块
  • 2.2.2 链接独立搜索引擎模块
  • 2.2.3 结果抽取模块
  • 2.2.4 正文文本抽取模块
  • 2.2.5 去重排序模块
  • 2.2.6 结果展示模块
  • 2.3 系统工作原理及数据流程
  • 2.3.1 工作原理
  • 2.3.2 数据流程
  • 2.4 本章小结
  • 第三章 元搜索引擎子系统关键技术的实现
  • 3.1 与搜索源的链接
  • 3.2 网页解析
  • 3.2.1 页面结构
  • 3.2.2 正则表达式解析页面
  • 3.2.3 各独立搜索引擎检索结果页面的解析过程及步骤
  • 3.3 检索信息的去重优化及重排序
  • 3.3.1 各独立搜索引擎检索结果重复判断
  • 3.3.2 各独立搜索引擎新闻检索结果排序与去重
  • 3.4 基于多线程技术的并行搜索
  • 3.4.1 多线程创建
  • 3.4.2 线程调度
  • 3.4.3 线程同步
  • 3.4.4 总结
  • 3.5 系统性能评价
  • 3.5.1 覆盖范围
  • 3.5.2 查准率
  • 3.5.3 检索时间
  • 3.6 本章小结
  • 第四章 信息抽取子系统关键技术的实现
  • 4.1 信息抽取
  • 4.2 网页结构分析与数据预处理
  • 4.2.1 网页结构分析
  • 4.2.2 数据预处理
  • 4.3 正文抽取
  • 4.3.1 网页信息表示
  • 4.3.2 基于贝叶斯理论的新闻正文抽取方法
  • 4.3.3 正文抽取过程
  • 4.4 实验与结果分析
  • 4.5 本章小结
  • 第五章 总结与展望
  • 5.1 本文总结
  • 5.2 工作展望
  • 致谢
  • 参考文献
  • 攻读硕士期间发表的论文
  • 附录A 判断两条信息是否是重复信息
  • 附录B 计算一条信息的相关度权值
  • 附录C 调用并启动独立搜索引擎
  • 附录D 线程同步类
  • 附录E 构建页面的table标签树主要源码
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    新闻信息采集系统的设计与实现
    下载Doc文档

    猜你喜欢