论文摘要
当今的社会是信息的社会。信息对人们的生产、生活起着举足轻重的作用,这其中新闻信息尤其重要。新闻信息对企业和个人的发展的重要性逐渐显现出来。有效利用信息技术和信息知识资源,对企业的各种生产经营活动进行全万位改造,充分开发,利用企业的人力、财力、物资及企业内外信息资源进行生产经营活动,降低生产和管理成本,提高经济效益,使企业的生产、设计、经营、管理、采购、仓储等全面实现自动化、智能化。企业管理者决策者要求及时掌握各种与本行业有关的最新、最准确的新闻信息,以便准确快速的做出相应的决策。企业的各个部门也要及时得到各自需要的新闻信息,以便于了解市场动态,及时进行调整。因此,快速准确地掌握新闻信息是现代企业和个人发展的必不可少的重要条件之一。而本系统正是为了满足用户的这一需求而诞生的。互联网上的信息每天都以指数量级的速度爆炸性增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。随着Web上多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供分类更细致精确、数据更全面深入、更新更及时地因特网搜索服务。在主题搜索引擎中,面向主题的网络爬虫以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究当中的热点问题之一。而Web的动态性、异构性和复杂性要求网络爬虫能够更高效地实现Web信息提取,以保证信息的实时性和有效性。本文就是编写一个新闻预定服务系统,利用面向主题的搜索引擎来为用户提供新闻信息的收集工作。本系统的主要工作就是编写一个面向主题的搜索引擎。主题爬虫是主题搜索引擎的基础与核心。因此如何编写一个高效的爬虫是我们要解决的主要问题。作为主题爬虫搜索策略的核心部分,主题相关性判别算法是主题爬虫能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中,引入了链接文本及相关链接属性分析。对于网页的主题相关性判别,则使用目前较为常用的向量空间模型进行判别。本系统完成后得到一个针对新闻的面向主题的搜索引擎。该系统能够根据用户预定的主题,自动在网络上搜索与主题相符合的新闻信息,当搜索完毕,自动将所得内容推送到用户指定的电子邮箱内。