互联网舆情信息搜索与分析技术研究

互联网舆情信息搜索与分析技术研究

论文摘要

近10年来中国互联网取得了长足的发展,截至2010年底中国互联网用户人数已超过4.5亿。随着互联网规模的扩大,网络在信息传播过程中的作用和影响力越来越大。2010年11月,网络热词“给力”登上了人民日报,更是见证了网民和网络的力量。互联网的方便、快捷,使之成为了社会舆情的重要载体,并发挥日益重要的作用。近年来发生的重大事件,都最先在网上激烈讨论并引发巨大反响。它带来便捷信息服务的同时,也产生了一系列问题,例如传播网络谣言和恐慌的负面效应。深入研究网络舆情,对国家正确引导民情和监管互联网具有重要意义。研究互联网舆情,一个重要任务是分析网络舆情事件、网民关注度及其间关系。本文分析了搜索量与网民关注度,地理分布与网民关注度的关系,并对新闻事件报道书写特征进行了研究。本文主要做了以下三方面工作:第一,对搜索引擎搜索量与互联网用户关注度之间关系进行分析,结合常规文本处理的中文分词、文本特征提取和文本分类技术,实现了一种互联网舆情信息收集方法。文中的互联网网舆情信息收集主要适用于快速从高搜索量的热点事件信息中收集舆情信息,有效地结合了搜索量与文本分析技术。第二,对新闻报道书写特征进行分析,结合中科院分词系统的分词功能及词性标注,通过人工设定部分提取命名实体的经验规则,实现了事件四要素提取。适宜于快速从web突发新闻中提取事件要素,能应用于文本摘要自动生成等方面。第三,对舆情分布呈现地域性进行了研究,实现了两种不同维度的可视化数据挖掘。通过从地域结构分析互联网舆情,借助Google Maps实现了细粒度可视化呈现网民舆情关注度分布,使用Flex技术实现了更加宏观的粗粒度舆情地图展示。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 研究背景及意义
  • 1.1.1 背景
  • 1.1.2 意义
  • 1.2 国内外研究现状
  • 1.2.1 内容分析
  • 1.2.2 行为分析
  • 1.3 本文主要内容
  • 1.4 论文章节安排
  • 第二章 舆情平台总体方案
  • 2.1 平台框架
  • 2.2 舆情信息获取
  • 2.3 舆情识别
  • 2.3.1 内容识别
  • 2.3.2 行为识别
  • 2.4 舆情分析
  • 2.4.1 可视化分析
  • 2.4.2 观点倾向分析
  • 2.4.3 趋势分析
  • 2.5 本章小结
  • 第三章 互联网舆情信息收集
  • 3.1 互联网搜索量
  • 3.2 文本处理
  • 3.2.1 中文分词
  • 3.2.2 文本特征提取
  • 3.2.3 文本分类算法
  • 3.3 舆情信息收集
  • 3.3.1 数据
  • 3.3.2 算法描述
  • 3.3.3 评估指标
  • 3.4 实验设计与结果分析
  • 3.4.1 实验设计
  • 3.4.2 结果分析
  • 3.5 本章小结
  • 第四章 新闻事件四要素提取
  • 4.1 突发新闻事件四要素
  • 4.1.1 突发新闻特征
  • 4.1.2 命名实体提取
  • 4.2 新闻事件四要素提取
  • 4.2.1 四要素提取
  • 4.2.2 评估标准
  • 4.3 测试案例分析及结果
  • 4.4 方法优缺点及应用
  • 4.5 本章小结
  • 第五章 舆情事件地理分布
  • 5.1 舆情结构分析
  • 5.1.1 社会网络结构分析
  • 5.1.2 地域结构分析
  • 5.2 Google Maps 舆情展示
  • 5.2.1 Google Maps
  • 5.2.2 Google Maps 展示
  • 5.3 Flex 地图舆情展示
  • 5.3.1 Flex 介绍
  • 5.3.2 数据标准化
  • 5.3.3 Flex 地图展示案例
  • 5.4 展示情况分析
  • 5.4.1 Google Maps 展示分析
  • 5.4.2 Flex 地图展示分析
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 攻硕期间取得的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    互联网舆情信息搜索与分析技术研究
    下载Doc文档

    猜你喜欢