网络舆情热点话题发现技术研究

网络舆情热点话题发现技术研究

论文摘要

随着网络的迅猛发展,网络已成为广大网民获取与发布信息不可或缺的渠道,因此网络舆情信息的舆论导向作用愈来愈大。如何及时并有效的发现舆情热点,并对关注热点跟踪分析,保障信息安全,监控舆论,已成为舆情研究领域中的一个重点和难点,也是一个挑战。本文综合分析了国内外话题识别与跟踪的研究现状,针对新闻报道形式的网络舆情语料,利用网络舆情分析处理技术,自动识别舆情热点话题。本文的核心工作包括舆情信息采集、舆情信息预处理、话题发现、热点话题识别。首先,网络舆情信息获取,针对传统的网络爬虫的两大缺陷,采取一定的网页分析策略,过滤无关网页,提高了舆情信息采集的效率及质量。另外,分析网页模板,设计一种基于模板与正则表达式结合的web信息抽取方法,进行网页清洗,将抽取到的有用信息保存到数据库服务器中。其次,舆情信息预处理,对采集的新闻报道正文进行新闻特征提取,利用向量空间模型表示新闻报道标题及正文内容,引入了命名实体识别对新闻特征权重计算的改进,设计了不同新闻报道间的相似度计算公式。再次,舆情话题发现,针对传统的话题发现算法Single-pass增量聚类算法存在的几个不足之处,引入了K-means方法和种子新闻报道的概念,提出了改进算法-增量K-means聚类算法。通过实验分析与比较,表明改进后的增量K-means聚类算法对于网络舆情话题发现还是有效可行的。最后,热点话题识别处理中,通过对舆情热点话题的特征分析,并结合媒体关注度与网民关注度设计了话题的“热”度计算公式,进行热点排序,找出热点话题。引入“Topic Index”的方法,探讨热点话题的产生及其演变过程。

论文目录

  • 中文摘要
  • Abstract
  • 目录
  • 第一章 引言
  • 1.1 课题研究背景与意义
  • 1.1.1 研究背景
  • 1.1.2 课题研究意义
  • 1.2 国内外相关研究现状
  • 1.3 论文的主要研究内容及工作
  • 1.4 论文的组织结构
  • 第二章 网络舆情分析相关技术
  • 2.1 总体介绍
  • 2.2 相关技术介绍
  • 2.2.1 网络爬虫技术
  • 2.2.2 自然语言处理技术
  • 2.2.3 关键词抽取技术
  • 2.2.4 Web 文本挖掘
  • 2.3 本章小结
  • 第三章 网络舆情话题识别
  • 3.1 总体设计
  • 3.2 网络舆情语料的采集
  • 3.2.1 网页采集
  • 3.2.2 网页清洗
  • 3.3 网络舆情信息的预处理
  • 3.3.1 向量空间模型
  • 3.3.2 新闻特征提取
  • 3.3.3 新闻特征词权重计算
  • 3.3.4 新闻报道相似度计算
  • 3.4 话题发现
  • 3.4.1 Single-pass 增量聚类算法
  • 3.4.2 增量 K-means 聚类算法
  • 3.5 实验结果与分析
  • 3.5.1 实验评价标准
  • 3.5.2 相似度阈值的取值计算
  • 3.5.3 算法的比较与分析
  • 3.5.4 结果分析
  • 3.6 本章小结
  • 第四章 热点话题发现
  • 4.1 话题热点特征表示及量化
  • 4.1.1 媒体关注度
  • 4.1.2 网民关注度
  • 4.1.3 特征量化及“热”度计算公式
  • 4.2 Topic Index
  • 4.3 实验结果与分析
  • 4.3.1 实验语料
  • 4.3.2 话题发现
  • 4.3.3 热点话题识别
  • 4.3.4 话题发展曲线
  • 4.4 本章小结
  • 总结与展望
  • 总结
  • 进一步的研究工作
  • 参考文献
  • 致谢
  • 个人简历、在学期间的研究成果及发表的论文
  • 相关论文文献

    • [1].模糊语言在新闻报道中的合理性运用分析[J]. 辽宁师专学报(社会科学版) 2019(05)
    • [2].浅谈如何做好文化新闻报道[J]. 新闻研究导刊 2019(22)
    • [3].新时期如何做好中国影视新闻报道[J]. 新闻研究导刊 2019(23)
    • [4].融媒体背景下新闻报道的创新探索——以《山东教育》杂志为例[J]. 青年记者 2019(35)
    • [5].媒体融合背景下新闻报道如何创新[J]. 传播力研究 2019(34)
    • [6].移动互联时代广电全媒体“两会”新闻报道创新探索[J]. 中国传媒科技 2019(12)
    • [7].创新广电新闻报道,打好五大“组合拳”——以汕湛高速茂名段建设主题宣传为例[J]. 传媒论坛 2020(02)
    • [8].为共和国庆生,我们使命必达——总台庆祝新中国成立70周年新闻报道纪实[J]. 电视研究 2019(12)
    • [9].读者观点[J]. 小康 2020(07)
    • [10].从网络舆论的“偏听偏信”谈新闻报道的平衡原则[J]. 新闻前哨 2020(01)
    • [11].让新闻报道“沾泥土”“带露珠”“冒热气”[J]. 青年记者 2020(03)
    • [12].让金融新闻报道“活”起来[J]. 中国地市报人 2020(01)
    • [13].媒介融合背景下地方媒体新闻报道存在问题及对策分析[J]. 西部广播电视 2020(06)
    • [14].新闻报道语篇同名回指转述的语用认知阐释[J]. 天津外国语大学学报 2020(03)
    • [15].科技新闻报道的创新和实践探索[J]. 记者摇篮 2020(06)
    • [16].俄语新闻报道中的术语功能探究[J]. 新闻传播 2020(08)
    • [17].突发公共事件中暖新闻报道的探索和思考[J]. 记者摇篮 2020(07)
    • [18].探析新媒体语境下改善法治新闻报道的对策[J]. 新闻传播 2020(06)
    • [19].科技新闻报道框架结构特点与发展展望——以2014—2017年科技新闻报道为例[J]. 沈阳大学学报(社会科学版) 2020(03)
    • [20].战“疫”中,如何写好“战地报道”——对战“疫”新闻报道的观察与思考[J]. 新闻传播 2020(05)
    • [21].数据“深加工”:疫情下的数据新闻报道透视[J]. 中国记者 2020(07)
    • [22].粮油新闻报道如何出新出彩[J]. 新闻传播 2020(10)
    • [23].数据新闻在气象新闻报道中的尝试与探索[J]. 新媒体研究 2020(11)
    • [24].主流媒体新闻报道与社会活动联动传播合力探析[J]. 传媒评论 2020(07)
    • [25].新闻报道要善于用故事“说话”[J]. 传媒评论 2020(07)
    • [26].新闻报道里的人性化设计[J]. 西部广播电视 2020(11)
    • [27].《民法典》中“新闻报道”行为的主体[J]. 青年记者 2020(19)
    • [28].新闻报道如何真正体现人文关怀[J]. 新闻研究导刊 2020(15)
    • [29].如何避免新闻报道的本质失实[J]. 中国地市报人 2020(08)
    • [30].新闻报道中如何防范“低级红”“高级黑”[J]. 新闻前哨 2020(09)

    标签:;  ;  ;  

    网络舆情热点话题发现技术研究
    下载Doc文档

    猜你喜欢