基于海量网络舆情信息的热点发现

基于海量网络舆情信息的热点发现

论文摘要

随着互联网的迅速发展,网络舆情信息在不断的加速增长着。这些海量的信息对社会所造成的影响不能再回避,当前高新科技手段的介入成为了必然,需要一套自动的舆情分析系统,及时有效的发现目前网络所面临的热点突发事件,为上级领导的决策做出正确的引导。本课题依托于粤港关键领域重点突破项目“一体化综合信息安全防护系统”子项目“舆情分析系统”,对于里面的热点发现这一关键技术进行了深入的分析、研究。在本课题中通过对各种常见聚类算法进行了比较、研究,结合需要处理的文本集是海量的特点,提出了一种新的二次聚类算法—DAK (Density And K-means)。它是将划分聚类方法与基于密度的聚类方法相结合的结果,该算法降低了在相同文本数量下聚类过程中的时间消耗,并且对结果的查全率、查准率都有较大的提高。克服了划分方法需要在进行聚类前需要给出初始参数的缺点,从而使在同样文本集的情况下多次聚类的结果是稳定的。对于文本的主要工作总结如下:1)结合目前国内外相关的各种技术,详细设计了网络舆情热点发现的系统结构图。2)研究分析了系统中的两个重要辅助模块:网页信息采集模块与网页信息预处理模块。3)重点介绍了系统的核心模块——舆情分析模块。4)提出了DAK算法,分析比较了与K-means及基于密度的聚类方法各自所具有的优缺点。5)通过实验测试部分的数据证明了DAK算法在时间消耗、查全率、查准率方面的优越性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景及意义
  • 1.2 国内外现状分析
  • 1.3 课题来源
  • 1.4 论文内容安排
  • 第二章 相关理论研究
  • 2.1 文本分词
  • 2.1.1 分词规范
  • 2.1.2 歧义词与新词识别
  • 2.2 文本的表示模型
  • 2.3 文本的特征提取
  • 2.4 文本聚类方法
  • 2.4.1 划分方法(Partitioning Method)
  • 2.4.2 层次方法(Hierarchical Method)
  • 2.4.3 基于密度的方法(Density-Based Clustering Method)
  • 2.4.4 基于网格的聚类方法(Grid-Based Clustering Method)
  • 2.5 本章小结
  • 第三章 舆情信息热点发现的总体设计
  • 3.1. 系统概述
  • 3.2. 系统需求分析
  • 3.2.1 网页信息采集需求
  • 3.2.2 信息处理需求
  • 3.2.3 舆情热点需求
  • 3.2.4 舆情监控需求
  • 3.3. 系统结构设计
  • 3.3.1 网页信息采集模块
  • 3.3.1.1 改进分布式爬虫
  • 3.3.1.2 信息抽取
  • 3.3.1.3 网页去重
  • 3.3.2 网页信息预处理模块
  • 3.3.3 舆情分析模块
  • 3.4. 系统流程
  • 3.5. 开发环境介绍
  • 3.6. 本章小结
  • 第四章 关键技术研究与实现
  • 4.1 DAK 算法形成的背景
  • 4.2 DAK 算法实现过程
  • 4.3 热点生成
  • 4.3.1 文本自动摘要研究
  • 4.3.2 热点提取
  • 4.3.3 热点展示
  • 4.4 本章小结
  • 第五章 系统性能分析
  • 5.1 性能测试环境及测试过程
  • 5.2 测试结果分析
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 硕士期间发表的论文和参与的项目
  • 相关论文文献

    标签:;  ;  ;  

    基于海量网络舆情信息的热点发现
    下载Doc文档

    猜你喜欢