面向新闻报道的话题检测技术研究

面向新闻报道的话题检测技术研究

论文摘要

话题检测与跟踪(Topic Detection and Tracking,TDT)作为一个新兴的自然语言处理研究方向,它的研究主要涉及了自然语言处理、信息检索、信息过滤、人工智能和机器学习等多个领域,是一个跨学科领域的综合性课题。话题检测与跟踪旨在基于事件对信息进行组织和利用,同时也是为了应对信息过载问题而提出的一项应用研究。TDT是指在新闻专线和广播新闻等来源的新闻数据流中自动的发现话题并把话题相关的内容联系在一起的技术。自1996年TDT概念提出以来,国内外许多研究机构都参与了这一技术的研究。目前TDT研究已经引起了国内外研究者们的广泛关注,逐渐成为自然语言处理领域的一个研究热点。本文以文本形式的英文新闻报道流为处理对象,对话题检测任务进行了深入细致的研究。我们首先介绍了话题检测与跟踪技术的相关概念,以及近年来的发展动向。然后重点介绍了系统相似模型及系统相似度计算方法。本文分析词变体与缩略词在话题检测与跟踪中的作用,研究并实现了一种基于形念学与语义相结合的词变体与缩略词的识别方法。本文针对话题检测研究中存在的“难以区分”的难题,并分析了英语新闻报道内容及书写形式上的特点研究并实现了一种基于语义划分的话题检测技术。实验证明,基于语义划分的话题检测算法对于解决“难以区分”问题非常有效。最后探索了时间信息在话题检测中的应用研究,研究并实现了基于话题持续时间的动念阈值模型,并结合其特点采用了一种比值法来选择和话题最相似的报道。通过在英语语料上对该动态阈值模型进行实验证明基于话题持续时间的动念阈值模型配合比值法的使用大大提高了系统的整体性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 本文的研究背景和意义
  • 1.2 本文的主要研究内容
  • 1.3 本文的组织结构
  • 第2章 话题检测任务的相关技术研究
  • 2.1 TDT技术的发展历程
  • 2.2 相关基本概念与任务
  • 2.3 话题检测的相关研究
  • 2.3.1 基于层次聚类算法的话题检测算法
  • 2.3.2 基本的在线增量式话题检测算法
  • 2.3.3 基于双阈值的话题检测算法
  • 2.4 话题跟踪的相关研究
  • 2.4.1 基于查询的话题跟踪算法
  • 2.4.2 基于分类算法的话题跟踪算法
  • 2.5 测试语料与评测方法
  • 2.5.1 话题检测与跟踪的评测语料
  • 2.5.2 话题检测与跟踪的评测方法
  • 2.6 本章小结
  • 第3章 话题检测任务的预处理技术
  • 3.1 文本标记预处理
  • 3.2 报道和话题的表示模型
  • 3.2.1 向量空间模型
  • 3.2.2 系统相似模型
  • 3.3 词变体与缩略词识别
  • 3.3.1 词变体与缩略词在话题检测中的作用
  • 3.3.2 基于形态学的候选词识别方法
  • 3.3.3 基于系统相似模型的语义相似度计算
  • 3.4 实验与分析
  • 3.5 本章小结
  • 第4章 基于语义划分的话题检测方法
  • 4.1 语义划分在话题检测中的作用
  • 4.1.1 基本概念
  • 4.1.2 基于语义划分的话题模型
  • 4.1.3 基于语义划分的话题检测方法
  • 4.2 时间信息在话题检测中的应用
  • 4.2.1 时间信息的相关研究
  • 4.2.2 基于话题持续时间的动态阈值计算
  • 4.2.3 比值法
  • 4.3 实验与结果分析
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 个人简历
  • 附录
  • 相关论文文献

    • [1].模糊语言在新闻报道中的合理性运用分析[J]. 辽宁师专学报(社会科学版) 2019(05)
    • [2].浅谈如何做好文化新闻报道[J]. 新闻研究导刊 2019(22)
    • [3].新时期如何做好中国影视新闻报道[J]. 新闻研究导刊 2019(23)
    • [4].融媒体背景下新闻报道的创新探索——以《山东教育》杂志为例[J]. 青年记者 2019(35)
    • [5].媒体融合背景下新闻报道如何创新[J]. 传播力研究 2019(34)
    • [6].移动互联时代广电全媒体“两会”新闻报道创新探索[J]. 中国传媒科技 2019(12)
    • [7].创新广电新闻报道,打好五大“组合拳”——以汕湛高速茂名段建设主题宣传为例[J]. 传媒论坛 2020(02)
    • [8].为共和国庆生,我们使命必达——总台庆祝新中国成立70周年新闻报道纪实[J]. 电视研究 2019(12)
    • [9].读者观点[J]. 小康 2020(07)
    • [10].从网络舆论的“偏听偏信”谈新闻报道的平衡原则[J]. 新闻前哨 2020(01)
    • [11].让新闻报道“沾泥土”“带露珠”“冒热气”[J]. 青年记者 2020(03)
    • [12].让金融新闻报道“活”起来[J]. 中国地市报人 2020(01)
    • [13].媒介融合背景下地方媒体新闻报道存在问题及对策分析[J]. 西部广播电视 2020(06)
    • [14].新闻报道语篇同名回指转述的语用认知阐释[J]. 天津外国语大学学报 2020(03)
    • [15].科技新闻报道的创新和实践探索[J]. 记者摇篮 2020(06)
    • [16].俄语新闻报道中的术语功能探究[J]. 新闻传播 2020(08)
    • [17].突发公共事件中暖新闻报道的探索和思考[J]. 记者摇篮 2020(07)
    • [18].探析新媒体语境下改善法治新闻报道的对策[J]. 新闻传播 2020(06)
    • [19].科技新闻报道框架结构特点与发展展望——以2014—2017年科技新闻报道为例[J]. 沈阳大学学报(社会科学版) 2020(03)
    • [20].战“疫”中,如何写好“战地报道”——对战“疫”新闻报道的观察与思考[J]. 新闻传播 2020(05)
    • [21].数据“深加工”:疫情下的数据新闻报道透视[J]. 中国记者 2020(07)
    • [22].粮油新闻报道如何出新出彩[J]. 新闻传播 2020(10)
    • [23].数据新闻在气象新闻报道中的尝试与探索[J]. 新媒体研究 2020(11)
    • [24].主流媒体新闻报道与社会活动联动传播合力探析[J]. 传媒评论 2020(07)
    • [25].新闻报道要善于用故事“说话”[J]. 传媒评论 2020(07)
    • [26].新闻报道里的人性化设计[J]. 西部广播电视 2020(11)
    • [27].《民法典》中“新闻报道”行为的主体[J]. 青年记者 2020(19)
    • [28].新闻报道如何真正体现人文关怀[J]. 新闻研究导刊 2020(15)
    • [29].如何避免新闻报道的本质失实[J]. 中国地市报人 2020(08)
    • [30].新闻报道中如何防范“低级红”“高级黑”[J]. 新闻前哨 2020(09)

    标签:;  ;  ;  ;  

    面向新闻报道的话题检测技术研究
    下载Doc文档

    猜你喜欢