基于网络语义挖掘的舆情监测预警研究

基于网络语义挖掘的舆情监测预警研究

论文摘要

由于互联网具有匿名、公平、自由、传播迅速和受众规模庞大等诸多优点,广大人民群众往往更愿意以此种途径表达自己的真实想法。互联网像一个虚拟的社会,目前已成为舆情产生和扩散传播的一个重要空间。对于互联网上的舆情态势的掌控,已成为国家和各级政府了解和疏导民意的重要手段。但由于互联网上庞大的信息量,完全以人工方式对网络舆情进行全面高效的监测难度较大。因而结合了计算机网络技术和文本自动分析处理技术的互联网舆情自动监控系统引起人们越来越多的关注。目前国内外出现了很多互联网舆情监测领域的研究成果,同时也推动网络技术和文本分析处理技术的发展。现有的舆情监测系统在采集、检索和分析模块中都是采用基于统计和特征关键词的方法,由于忽视了文本中的语义信息往往会导致分析结果的不精确。本文试图将本体论和语义计算相关技术引入到网络舆情监测领域来提高网络舆情监测系统的性能。本文首先介绍了互联网信息采集和网页预处理的相关技术,其中提出了一种改进的网页正文提取方法。然后介绍了文本挖掘相关技术以及语义网和本体技术,并在领域专家的帮助下,综合参考了各种现有的资源,建立了一个面向网络舆情监控领域的本体库,并将基于领域本体的查询词语义扩展技术引入到舆情信息检索的应用中;改进了基于知网的文本相似度计算方法和基于语义相似度计算的聚类算法。最后介绍了网络舆情热评估预警技术,在现有研究成果的基础上建立了一套适用于网络舆情的热点评估指标体系,并利用因变量和回归系数都未知的凸约束广义线性回归评估模型对互联网舆情热点进行了评估建模实验,并将评估结果与人民网发布的舆情热点进行了比较分析,在一定程度上说明了该技术的可行性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题背景和意义
  • 1.2 互联网舆情监测系统及相关技术研究现状
  • 1.3 本文研究内容及组织结构
  • 第二章 信息获取和预处理技术
  • 2.1 Web信息采集
  • 2.2 Web信息预处理
  • 2.3 中文分词和去停用词
  • 2.4 本章小结
  • 第三章 文本挖掘技术
  • 3.1 文本表示
  • 3.2 文本相似度计算
  • 3.3 文本分类及评测方法
  • 3.4 文本聚类及算法
  • 3.5 本章小结
  • 第四章 语义网及本体相关技术
  • 4.1 语义网(Semantic Web)
  • 4.2 可扩展标记语言XML
  • 4.3 资源描述框架(RDF)
  • 4.4 本体(Ontology)
  • 4.5 本章小结
  • 第五章 基于语义挖掘的舆情分析
  • 5.1 基于领域本体的语义查询扩展
  • 5.2 一种基于语义的文本相似度计算方法
  • 5.3 基于语义相似度的改进文本聚类方法
  • 5.4 本章小结
  • 第六章 网络舆情热点评估模型及预警
  • 6.1 舆情热点评估指标体系
  • 6.2 估模型的建立
  • 6.3 数据获取
  • 6.4 评估结果的比较分析
  • 6.5 舆情预警
  • 6.6 本章小结
  • 第七章 结论与展望
  • 7.1 全文总结
  • 7.2 工作展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于网络语义挖掘的舆情监测预警研究
    下载Doc文档

    猜你喜欢