Print

个性化RSS新闻检索系统设计与实现

论文摘要

RSS(Rich Site Summary或Really Simple Syndication或RDF Site Summary)阅读器的出现,解决了用户每天都需要登陆很多个门户网站的困扰。RSS阅读器会以一定的频率自动对这些网站的内容进行更新,这就很好的解决了信息不能及时更新的问题。但是,由于各个门户网站发布的内容的重复性,RSS阅读器还是存在重复信息太多,信息关联度不好的问题,这就大大浪费了用户的时间。本文就是针对RSS聚合重复信息多且关联度不好的缺点,对RSS阅读器进行功能改进,实现个性化新闻检索。分别是相同或相似内容新闻过滤功能,即当各网站出现相同主题、内容相似的文章时只显示优先级最高的网站的新闻;选择订阅功能,即按照用户要求,定制针对用户喜好的新闻内容;系列新闻链接功能,即可链接到与感兴趣的新闻相关的之前发布的新闻。本文首先通过Digester模块对XML(Extensible Markup Language)文件进行解析,调用中文分词与词性标注系统开放模块对解析出的新闻标题进行词性标注,提取出一系列实意词作为该新闻的关键词。然后按日期对新闻进行区分,根据本文所提出的判断准则,对搜集到的全部新闻关键词进行比较分类存储。最后就是各个改进功能的实现,显示优先级最高的新闻实现相同内容新闻过滤功能;对订阅关键词和/或禁止关键词与新闻关键词比较实现新闻订阅功能;通过跨日期类的关键词比较,根据判定准则,实现系列新闻链接功能。经过系统运行以及详细的统计和对比分析,引入准确率和召回率,以及F值的评测指标,得到了较为理想的结果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的背景及研究目的
  • 1.2 RSS的国内外研究综述
  • 1.2.1 国外RSS技术的发展
  • 1.2.2 国内RSS技术的发展
  • 1.2.3 RSS的演变
  • 1.3 词性标注的发展现状
  • 1.4 新闻检索的研究现状
  • 1.5 本论文的主要工作内容
  • 第2章 个性化RSS新闻检索系统的相关技术
  • 2.1 RSS简介
  • 2.1.1 RSS技术的优点
  • 2.1.2 RSS的工作原理
  • 2.1.3 RSS2.0规范
  • 2.2 基于隐马尔可夫模型的词性标注方法
  • 2.2.1 中文分词的方法概述
  • 2.2.2 词性标注的方法概述
  • 2.3 本章小结
  • 第3章 个性化RSS新闻检索系统的设计
  • 3.1 系统需求分析
  • 3.2 系统总体设计
  • 3.3 数据结构设计
  • 3.4 系统界面设计
  • 3.5 本章小结
  • 第4章 个性化RSS新闻检索系统的实现
  • 4.1 关键词提取模块
  • 4.1.1 RSSFeeds解析
  • 4.1.2 基于隐马尔科夫模型的词性标注模块的实现
  • 4.1.3 提取关键词
  • 4.2 存储模块
  • 4.3 核心控制模块
  • 4.3.1 去重模块
  • 4.3.2 选择订阅模块
  • 4.3.3 系列新闻判定模块
  • 4.4 本章小结
  • 第5章 个性化RSS新闻检索系统的测试及评价
  • 5.1 测试用例及测试结果
  • 5.2 测试结果分析及评价
  • 5.3 压力测试
  • 5.4 本章小结
  • 第6章 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/5a135dfdaf75ef26f57ff06b.html