论文摘要
随着互联网的迅速发展,网络舆情信息在不断的加速增长着。这些海量的信息对社会所造成的影响不能再回避,当前高新科技手段的介入成为了必然,需要一套自动的舆情分析系统,及时有效的发现目前网络所面临的热点突发事件,为上级领导的决策做出正确的引导。本课题依托于粤港关键领域重点突破项目“一体化综合信息安全防护系统”子项目“舆情分析系统”,对于里面的热点发现这一关键技术进行了深入的分析、研究。在本课题中通过对各种常见聚类算法进行了比较、研究,结合需要处理的文本集是海量的特点,提出了一种新的二次聚类算法—DAK (Density And K-means)。它是将划分聚类方法与基于密度的聚类方法相结合的结果,该算法降低了在相同文本数量下聚类过程中的时间消耗,并且对结果的查全率、查准率都有较大的提高。克服了划分方法需要在进行聚类前需要给出初始参数的缺点,从而使在同样文本集的情况下多次聚类的结果是稳定的。对于文本的主要工作总结如下:1)结合目前国内外相关的各种技术,详细设计了网络舆情热点发现的系统结构图。2)研究分析了系统中的两个重要辅助模块:网页信息采集模块与网页信息预处理模块。3)重点介绍了系统的核心模块——舆情分析模块。4)提出了DAK算法,分析比较了与K-means及基于密度的聚类方法各自所具有的优缺点。5)通过实验测试部分的数据证明了DAK算法在时间消耗、查全率、查准率方面的优越性。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题背景及意义1.2 国内外现状分析1.3 课题来源1.4 论文内容安排第二章 相关理论研究2.1 文本分词2.1.1 分词规范2.1.2 歧义词与新词识别2.2 文本的表示模型2.3 文本的特征提取2.4 文本聚类方法2.4.1 划分方法(Partitioning Method)2.4.2 层次方法(Hierarchical Method)2.4.3 基于密度的方法(Density-Based Clustering Method)2.4.4 基于网格的聚类方法(Grid-Based Clustering Method)2.5 本章小结第三章 舆情信息热点发现的总体设计3.1. 系统概述3.2. 系统需求分析3.2.1 网页信息采集需求3.2.2 信息处理需求3.2.3 舆情热点需求3.2.4 舆情监控需求3.3. 系统结构设计3.3.1 网页信息采集模块3.3.1.1 改进分布式爬虫3.3.1.2 信息抽取3.3.1.3 网页去重3.3.2 网页信息预处理模块3.3.3 舆情分析模块3.4. 系统流程3.5. 开发环境介绍3.6. 本章小结第四章 关键技术研究与实现4.1 DAK 算法形成的背景4.2 DAK 算法实现过程4.3 热点生成4.3.1 文本自动摘要研究4.3.2 热点提取4.3.3 热点展示4.4 本章小结第五章 系统性能分析5.1 性能测试环境及测试过程5.2 测试结果分析5.3 本章小结第六章 总结与展望6.1 总结6.2 展望致谢参考文献硕士期间发表的论文和参与的项目
相关论文文献
标签:网络舆情论文; 热点发现论文; 网络爬虫论文;