论文摘要
RSS(Rich Site Summary或Really Simple Syndication或RDF Site Summary)阅读器的出现,解决了用户每天都需要登陆很多个门户网站的困扰。RSS阅读器会以一定的频率自动对这些网站的内容进行更新,这就很好的解决了信息不能及时更新的问题。但是,由于各个门户网站发布的内容的重复性,RSS阅读器还是存在重复信息太多,信息关联度不好的问题,这就大大浪费了用户的时间。本文就是针对RSS聚合重复信息多且关联度不好的缺点,对RSS阅读器进行功能改进,实现个性化新闻检索。分别是相同或相似内容新闻过滤功能,即当各网站出现相同主题、内容相似的文章时只显示优先级最高的网站的新闻;选择订阅功能,即按照用户要求,定制针对用户喜好的新闻内容;系列新闻链接功能,即可链接到与感兴趣的新闻相关的之前发布的新闻。本文首先通过Digester模块对XML(Extensible Markup Language)文件进行解析,调用中文分词与词性标注系统开放模块对解析出的新闻标题进行词性标注,提取出一系列实意词作为该新闻的关键词。然后按日期对新闻进行区分,根据本文所提出的判断准则,对搜集到的全部新闻关键词进行比较分类存储。最后就是各个改进功能的实现,显示优先级最高的新闻实现相同内容新闻过滤功能;对订阅关键词和/或禁止关键词与新闻关键词比较实现新闻订阅功能;通过跨日期类的关键词比较,根据判定准则,实现系列新闻链接功能。经过系统运行以及详细的统计和对比分析,引入准确率和召回率,以及F值的评测指标,得到了较为理想的结果。