Web新闻专题组织与生成系统研究

Web新闻专题组织与生成系统研究

论文摘要

随着互联网的迅猛发展与普及,Web新闻信息呈爆炸式的增长。人们希望方便快捷地从海量的Web新闻中获取自己感兴趣的信息,并能了解某一突发的新闻事件或热点事件的前因后果和来龙去脉。应用主题检测与追踪技术、新闻来龙去脉生成技术,实现对新闻信息自动组织和专题生成,帮助用户有效地收集、检索和管理新闻信息,为用户提供高层次的信息服务,这在搜索引擎、信息监控、知识管理等应用领域具有极其重要的实用意义。本文首先分析新闻专题组织与生成系统的基本原理与结构,及其所面临的主要困难与相应的技术手段,然后分别就系统各主要模块的关键技术进行研究,主要做了如下五个方面工作:(1)研究了当前网页信息采集所遇到的困难,设计并实现了Web新闻信息采集器。该采集器对宽度采集优先策略进行改进,在采集过程中进行了网页类型判断。(2)详细地分析了Web中导航条、广告信息、版权信息等噪声内容使主题检测性能下降的问题,研究了Web噪声净化技术,并给出了一种基于向量空间模型的网页噪声净化方法。(3)研究了基于自适应重心的主题检测方法。新方法针对主题检测中事件动态发展可能会导致后继故事判断错误的现象,用命名实体作为特征项来表示主题重心,通过组合初始的主题重心以及每一次动态修正后的主题重心,构建用于检测后继故事的总主题检测器。。(4)研究了基于LS-SVM的新闻主题追踪方法。该方法利用隐含语义分析(Latent Semmantic Indexing,LSI)完成文本特征降维及语义表示,然后采用支持向量机(SVM)进行新闻主题追踪,从而实现语义层次的新闻主题追踪。(5)研究了基于NS-IMMC的新闻专题来龙去脉生成方法。该方法根据新闻结构特点(News Structure,NS)抽取文摘句;然后利用改进的最小最大聚类算法(Improve Min-Max Clustering,IMMC)对文摘句进行聚类,最后按照新闻文档的时间顺序输出文摘句生成多文档摘要,用来表示专题来龙去脉。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 相关工作
  • 1.2.1 文本聚类
  • 1.2.2 信息检索
  • 1.2.3 主题检测与追踪
  • 1.2.4 专题来龙去脉生成
  • 1.3 论文研究内容与结构安排
  • 第二章 Web新闻专题组织与生成系统组成
  • 2.1 Web新闻专题组织与生成系统的基本原理和意义
  • 2.2 Web新闻专题组织与生成系统的基本结构
  • 2.2.2 部分Web新闻信息采集
  • 2.2.3 Web新闻主题内容提取
  • 2.2.4 文本表示与特征提取
  • 2.2.5 新闻主题检测
  • 2.2.6 新闻主题追踪
  • 2.2.7 新闻专题来龙去脉生成
  • 2.3 Web新闻专题生成面临的技术困难和相应手段
  • 2.4 本系统的技术特点
  • 第三章 Web新闻信息采集与内容提取
  • 3.1 Web新闻信息采集方法设计
  • 3.1.2 URL队列
  • 3.1.3 URL处理器
  • 3.1.4 网页采集器
  • 3.1.5 网页去重检测器
  • 3.1.6 URL提取器
  • 3.1.7 标签信息提取器
  • 3.1.8 网页类型判断
  • 3.1.9 数据库
  • 3.2 Web新闻信息采集器的实现过程
  • 3.2.1 本采集器的设计关键点
  • 3.2.2 Web新闻采集器的实现流程
  • 3.3 网页主题内容提取
  • 3.3.1 新闻网页及噪声分类
  • 3.3.2 基于向量空间模型的网页噪声净化
  • 3.4 实验结果及性能分析
  • 3.4.1 Web信息采集效率
  • 3.4.2 噪声消除的彻底性
  • 3.4.3 提取内容的完整性
  • 3.4.4 噪声消除的效率
  • 3.5 本章小结
  • 第四章 基于自适应重心的新闻主题检测
  • 4.1 主题检测的基本原理
  • 4.2 新闻主题的表示
  • 4.2.1 新闻主题的特征项
  • 4.2.2 新闻主题特征项的权重
  • 4.2.3 特征维数约减
  • 4.2.4 新闻主题的表示
  • 4.3 主题检测算法
  • 4.3.1 增量式聚类算法
  • 4.3.2 主题重心的修正
  • 4.3.3 主题重心的组合
  • 4.3.4 基于主题重心自适应的主题检测方法
  • 4.4 实验结果及性能分析
  • 4.4.1 实验数据
  • 4.4.2 实验结果评测标准
  • 4.4.3 软件实现结果
  • 4.4.4 实验结果及性能分析
  • 4.5 本章小结
  • 第五章 基于LS-SVM的新闻主题追踪
  • 5.1 LSI模型
  • 5.1.1 隐含语义分析
  • 5.1.2 词-文档矩阵表示
  • 5.1.3 奇异值分解
  • 5.2 支持向量机(SVM)
  • 5.3 基于 LS-SVM的新闻主题追踪方法
  • 5.4 实验结果与性能分析
  • 5.4.1 实验数据及评价标准
  • 5.4.2 实验结果与性能比较
  • 5.5 本章小结
  • 第六章 基于NS-IMMC的新闻专题来龙去脉生成
  • 6.1 多文档自动摘要基础
  • 6.1.1 自动摘要的定义和分类
  • 6.1.2 多文档自动摘要的定义和分类
  • 6.1.3 多文档文摘与其他自然语言处理的关系
  • 6.1.4 评价方法
  • 6.2 新闻文档结构特点(NS)
  • 6.3 最小最大聚类算法
  • 6.3.1 最小最大聚类原理
  • 6.3.2 改进的最小最大聚类算法(IMMC)
  • 6.4 基于NS-IMMC的新闻专题来龙去脉生成方法
  • 6.5 实验结果与性能分析
  • 6.6 本章小结
  • 第七章 系统的实现与总结
  • 7.1 系统总体功能及框架结构
  • 7.2 新闻专题组织与生成系统实例及结果
  • 7.3 全文总结
  • 7.4 展望
  • 参考文献
  • 致谢
  • 作者攻读硕士学位期间的主要研究成果
  • 相关论文文献

    • [1].网络新闻专题探析[J]. 西部广播电视 2020(01)
    • [2].对于电视新闻专题采访技巧的相关思考[J]. 传播力研究 2019(35)
    • [3].勤练脚力 精细采访——从《让这片叶子造福另一方百姓》剖析新闻专题的采写[J]. 视听纵横 2020(01)
    • [4].新时期电视新闻专题采访技巧的分析[J]. 西部广播电视 2020(07)
    • [5].从网络受众需求谈网络新闻专题编辑探讨[J]. 西部广播电视 2020(08)
    • [6].网络新闻专题报道如何创新[J]. 新闻世界 2020(10)
    • [7].实操层面电视新闻专题报道编辑与制作[J]. 声屏世界 2019(10)
    • [8].网络新闻专题策略分析[J]. 记者摇篮 2018(03)
    • [9].浅谈如何恰当运用文学手法采写电视新闻专题[J]. 电视指南 2017(15)
    • [10].什么样的新闻专题才是好专题[J]. 青年记者 2018(23)
    • [11].论网络新闻专题的包装意识[J]. 新闻论坛 2010(01)
    • [12].浅谈网络新闻专题的特点及发展[J]. 新闻论坛 2011(05)
    • [13].从网络受众需求谈网络新闻专题编辑探讨[J]. 科技传播 2015(02)
    • [14].网络新闻专题的策划与编辑[J]. 中国地市报人 2015(06)
    • [15].网络新闻专题特点及报道角度[J]. 新闻研究导刊 2015(16)
    • [16].关于新形势下网络新闻专题现状及发展的几点思考[J]. 记者观察 2019(33)
    • [17].新时期电视新闻专题采访技巧的分析[J]. 记者观察 2020(21)
    • [18].突发事件下的新闻专题报道——以《新闻“1+1”》为例[J]. 新闻研究导刊 2020(13)
    • [19].广播新闻专题《蒋巷村的“农民节”情结》的创作要素[J]. 视听界 2019(06)
    • [20].网络新闻专题的现状与对策[J]. 新闻窗 2016(02)
    • [21].浅谈网络新闻专题的策划与制作要点[J]. 新闻传播 2016(13)
    • [22].淡妆浓抹总相宜——浅谈电视新闻专题的后期制作[J]. 声屏世界 2016(09)
    • [23].网络新闻专题的策划与对策研究[J]. 新闻传播 2014(12)
    • [24].浅析网络新闻专题的制作[J]. 新闻传播 2015(08)
    • [25].新闻专题采访对稿本的要求[J]. 唐山文学 2019(02)
    • [26].网络新闻专题相比传统新闻所体现的优点[J]. 青年文学家 2012(01)
    • [27].网络新闻专题的策划与传播[J]. 阅读与写作 2011(01)
    • [28].我国网络新闻专题存在的问题及对策[J]. 新闻知识 2014(04)
    • [29].浅谈网络新闻专题[J]. 新闻世界 2014(09)
    • [30].新闻专题的人文关怀[J]. 新闻窗 2013(01)

    标签:;  ;  ;  ;  ;  

    Web新闻专题组织与生成系统研究
    下载Doc文档

    猜你喜欢