论文摘要
网络新闻信息的自动采集对于新闻网页的自动分类、自动摘要、敏感信息监测以及Web挖掘等应用十分重要。本文以半结构化的新闻网页为对象,研究如何从纷繁复杂的网络空间中采集各种新闻网页以及如何抽取其中的新闻正文两个问题,给出新闻信息采集系统的方案并予以实现,主要工作包括:1)基于B/S架构,对新闻信息采集系统进行了总体设计,将系统划分为元搜索引擎和信息抽取两大子系统,并分别对各子系统进行了详细的模块设计。2)给出了元搜索引擎子系统的关键技术实现,其中采用多线程技术实现系统与搜索源的并行交互,采用正则表达式实现搜索结果的解析。在此基础上,设计并实现了搜索结果的去重和排序策略。3)在对新闻网页的标签结构进行深入分析的基础上,提出了最小table块的概念,并通过构建网页的table标签树,将新闻正文抽取问题转换为寻找最小table块问题,进而基于贝叶斯理论提出一种新闻网页的正文文本抽取方法,实现了新闻正文的抽取。实验结果表明,本文设计的新闻信息采集系统方案切实可行,正文抽取算法准确、高效,初步实现了新闻信息采集的自动化。
论文目录
摘要ABSTRACT第一章 绪论1.1 问题提出的背景及意义1.2 国内外研究现状1.2.1 元搜索引擎1.2.2 信息抽取1.3 本文主要工作1.4 论文结构第二章 新闻信息采集系统的设计2.1 系统框架结构2.1.1 浏览器/服务器(B/S)模式2.1.2 系统架构2.2 系统模块设计2.2.1 信息规整模块2.2.2 链接独立搜索引擎模块2.2.3 结果抽取模块2.2.4 正文文本抽取模块2.2.5 去重排序模块2.2.6 结果展示模块2.3 系统工作原理及数据流程2.3.1 工作原理2.3.2 数据流程2.4 本章小结第三章 元搜索引擎子系统关键技术的实现3.1 与搜索源的链接3.2 网页解析3.2.1 页面结构3.2.2 正则表达式解析页面3.2.3 各独立搜索引擎检索结果页面的解析过程及步骤3.3 检索信息的去重优化及重排序3.3.1 各独立搜索引擎检索结果重复判断3.3.2 各独立搜索引擎新闻检索结果排序与去重3.4 基于多线程技术的并行搜索3.4.1 多线程创建3.4.2 线程调度3.4.3 线程同步3.4.4 总结3.5 系统性能评价3.5.1 覆盖范围3.5.2 查准率3.5.3 检索时间3.6 本章小结第四章 信息抽取子系统关键技术的实现4.1 信息抽取4.2 网页结构分析与数据预处理4.2.1 网页结构分析4.2.2 数据预处理4.3 正文抽取4.3.1 网页信息表示4.3.2 基于贝叶斯理论的新闻正文抽取方法4.3.3 正文抽取过程4.4 实验与结果分析4.5 本章小结第五章 总结与展望5.1 本文总结5.2 工作展望致谢参考文献攻读硕士期间发表的论文附录A 判断两条信息是否是重复信息附录B 计算一条信息的相关度权值附录C 调用并启动独立搜索引擎附录D 线程同步类附录E 构建页面的table标签树主要源码
相关论文文献
标签:元搜索引擎论文; 搜索引擎论文; 信息检索论文; 信息抽取论文; 新闻正文抽取论文;