论文摘要
由于互联网具有匿名、公平、自由、传播迅速和受众规模庞大等诸多优点,广大人民群众往往更愿意以此种途径表达自己的真实想法。互联网像一个虚拟的社会,目前已成为舆情产生和扩散传播的一个重要空间。对于互联网上的舆情态势的掌控,已成为国家和各级政府了解和疏导民意的重要手段。但由于互联网上庞大的信息量,完全以人工方式对网络舆情进行全面高效的监测难度较大。因而结合了计算机网络技术和文本自动分析处理技术的互联网舆情自动监控系统引起人们越来越多的关注。目前国内外出现了很多互联网舆情监测领域的研究成果,同时也推动网络技术和文本分析处理技术的发展。现有的舆情监测系统在采集、检索和分析模块中都是采用基于统计和特征关键词的方法,由于忽视了文本中的语义信息往往会导致分析结果的不精确。本文试图将本体论和语义计算相关技术引入到网络舆情监测领域来提高网络舆情监测系统的性能。本文首先介绍了互联网信息采集和网页预处理的相关技术,其中提出了一种改进的网页正文提取方法。然后介绍了文本挖掘相关技术以及语义网和本体技术,并在领域专家的帮助下,综合参考了各种现有的资源,建立了一个面向网络舆情监控领域的本体库,并将基于领域本体的查询词语义扩展技术引入到舆情信息检索的应用中;改进了基于知网的文本相似度计算方法和基于语义相似度计算的聚类算法。最后介绍了网络舆情热评估预警技术,在现有研究成果的基础上建立了一套适用于网络舆情的热点评估指标体系,并利用因变量和回归系数都未知的凸约束广义线性回归评估模型对互联网舆情热点进行了评估建模实验,并将评估结果与人民网发布的舆情热点进行了比较分析,在一定程度上说明了该技术的可行性。