基于新闻评论数据的K-means聚类算法的研究

基于新闻评论数据的K-means聚类算法的研究

论文摘要

互联网在经济社会生活中发挥着日益重要的影响,成为公众表达民意、参与经济政治及社会生活的一种新的舆论平台。个人网站、论坛、博客、评论区的出现,使信息传播更加便利快捷,个人观点的表达也更加充分。中国社会科学院社会蓝皮书2010年中国社会形势分析与预测指出,网络媒体正成为舆论新格局的重要组成部分,网络上热点新闻观点的表达集中不仅反映了公众对社会重大公共事件的参与,而且反映了公众所表现出的各种价值判断和思想动态,所形成的影响不可低估,政府应该形成对网络民意的监测、反馈和吸纳机制。因此网民在网络上有意识或者无意识表达出来的民情民意,对社会热点问题的关注表达出的价值取向和观点越来越具有研究和参考价值。电子政府融合了现代政府管理理念与最新的信息技术,通过智能化的信息处理,采用人工智能、数据挖掘、管理决策等技术来实现辅助决策系统,对于提高效率、提高政府回应与决策能力、提高决策的科学性和准确性,实现开放型、服务型、责任型政府具有重要意义。文本聚类技术中常采用的K-means聚类算法在实践中获得了广泛的应用,它具有高效的计算性能,具有清晰的、全局的目标函数,聚类过程简单、高效、鲁棒,适用于许多类型的数据。然而不同的应用需求、不同类型的数据对K-means算法提出了不同的要求。如何从大型门户网上热点新闻评论信息中提取出可供决策参考的结果是需要研究的问题,能够自动对评论信息进行聚类分析是解决这个问题的关键。本文选择K-means聚类算法,采用文本聚类技术,围绕评论信息的聚类问题做了一些探索性的工作,期望能够从这些评论信息中得出有价值的观点结果,有效提供给政府相关部门,用于在公共决策中吸纳、监测民意和辅助决策参考。在新闻评论聚类实现过程中,采用向量空间模型的文本表示方法,将最初的评论数据经过中文分词、特征提取、权重计算等处理,把评论文本数据转化成可进行聚类运算的向量,再进行聚类分析。并针对新闻评论数据的特点和K-means算法的主要缺点和不足,构建了新闻评论专用停用词表,对聚类算法实现中的关键环节特征项提取、初始聚类中心的选择和划分类别方法进行了改进,并对聚类结果和影响聚类结果的因素进行了分析说明。最终的聚类结果和F1值度量评价指标验证了本文研究内容的有效性。最后,把新闻评论聚类的研究技术应用到新闻评论推荐系统中,实现了系统中的新闻及评论的抓取和新闻评论聚类功能,得到了良好的聚类观点集,为后继的评论信息的推荐提供了更有价值和意义的评论观点。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 论文研究背景和意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 论文研究内容
  • 1.3 论文组织结构
  • 第二章 基于向量空间模型的文本聚类技术
  • 2.1 文本聚类概述
  • 2.1.1 数据挖掘概念
  • 2.1.2 文本挖掘概念
  • 2.1.3 文本挖掘过程和技术
  • 2.1.3.1 文本挖掘过程
  • 2.1.3.2 文本挖掘技术
  • 2.1.4 文本聚类技术
  • 2.1.4.1 文本聚类定义
  • 2.1.4.2 文本聚类过程
  • 2.1.4.3 文本聚类应用
  • 2.2 向量空间模型
  • 2.2.1 文本预处理
  • 2.2.1.1 分词
  • 2.2.1.2 停用词处理
  • 2.2.1.3 特征项选择
  • 2.2.1.4 特征项权重计算
  • 2.2.2 文本表示模型
  • 2.2.2.1 文本表示模型定义
  • 2.2.2.2 向量空间模型概述
  • 2.2.2.3 其它模型概述
  • 2.2.2.4 向量空间模型优缺点
  • 2.2.3 文本相似度度量
  • 2.3 本章小结
  • 第三章 文本聚类算法
  • 3.1 文本聚类算法概述
  • 3.1.1 聚类概念
  • 3.1.2 聚类数据结构
  • 3.1.3 聚类要求
  • 3.2 文本聚类算法分类
  • 3.2.1 划分聚类
  • 3.2.2 层次聚类
  • 3.2.3 基于密度的聚类
  • 3.2.4 基于网格的聚类
  • 3.2.5 基于模型的聚类
  • 3.3 K-MEANS 聚类算法
  • 3.3.1 K-means 聚类算法概念
  • 3.3.2 K-means 聚类算法优缺点
  • 3.3.3 K-means 聚类算法初始点的选择方法
  • 3.3.4 K-means 聚类算法研究进展和趋势
  • 3.4 文本聚类结果的评价
  • 3.5 本章小结
  • 第四章 基于新闻评论数据的K-MEANS 聚类算法
  • 4.1 新闻评论数据的向量空间模型
  • 4.1.1 实验的新闻评论数据
  • 4.1.2 新闻评论数据的特点
  • 4.1.3 评论数据的预处理
  • 4.1.4 评论数据的特征项
  • 4.1.5 评论数据的聚类过程示例
  • 4.2 新闻评论数据的聚类算法
  • 4.2.1 K-means 聚类算法
  • 4.2.2 改进的K-means 聚类算法
  • 4.2.3 改进的K-means 聚类算法参数分析
  • 4.3 实验结果及分析
  • 4.4 本章小结
  • 第五章 K-MEANS 聚类算法在新闻评论推荐系统中的应用
  • 5.1 新闻评论推荐系统
  • 5.1.1 系统背景及意义
  • 5.1.2 系统实现功能流程
  • 5.2 新闻评论聚类功能的实现
  • 5.2.1 功能实现方法
  • 5.2.2 开发工具和平台
  • 5.2.3 数据库结构设计
  • 5.2.4 功能实现界面
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 论文内容总结
  • 6.2 研究与展望
  • 参考文献
  • 致谢
  • 附录:攻读学位期间发表的学术论文
  • 相关论文文献

    • [1].基于K-means聚类的航空复合材料敲击检测研究[J]. 航空科学技术 2019(10)
    • [2].基于K-means的电力系统典型日负荷特性计算方法研究[J]. 无线互联科技 2020(01)
    • [3].基于k-means聚类算法的高校人才评价分析——以泸州职业技术学院为例[J]. 数字技术与应用 2019(12)
    • [4].基于K-means聚类方法的早期聚落规模等级研究[J]. 地域研究与开发 2020(02)
    • [5].基于改进k-means的电力信息系统异常检测方法[J]. 深圳大学学报(理工版) 2020(02)
    • [6].基于红外图像特征与K-means的边缘检测[J]. 红外技术 2020(01)
    • [7].基于k-means聚类分析法的四川省区域经济差异时空演化分析[J]. 甘肃科技 2020(01)
    • [8].K-Means聚类分析法筛选柠檬香茅茎叶差异蛋白及鉴定[J]. 应用化学 2020(04)
    • [9].基于特征融合的K-means微博话题发现模型[J]. 电子技术应用 2020(04)
    • [10].基于K-means聚类挖掘智能机器人领域技术创新人才[J]. 新世纪图书馆 2020(03)
    • [11].基于改进K-Means算法的图书馆读者阅读需求实证研究[J]. 新世纪图书馆 2020(05)
    • [12].基于k-means聚类分析在高校学生成绩中的应用研究[J]. 科技经济导刊 2020(21)
    • [13].基于K-means的多维聚类算法在客户信息中的应用[J]. 软件 2020(07)
    • [14].基于K-means++算法的三相电能表评价模型研究[J]. 电测与仪表 2020(17)
    • [15].K-means算法在农资网站客户管理中的应用[J]. 枣庄学院学报 2020(05)
    • [16].基于遗传算法的K-means聚类改进研究[J]. 计算机与数字工程 2020(08)
    • [17].基于K-means聚类的沙尘天气快速识别技术研究[J]. 中国环境监测 2020(05)
    • [18].基于K-means聚类分析的汽车行驶工况构建[J]. 物流科技 2020(11)
    • [19].基于k-means聚类的我国乳制品消费集群研究——来自全国31个省份乳制品消费数据的分析[J]. 中国乳品工业 2019(10)
    • [20].基于球面距离的K-means聚类任务打包[J]. 嘉兴学院学报 2019(06)
    • [21].基于K-means算法的数据挖掘与客户细分研究[J]. 市场研究 2019(11)
    • [22].数据场和K-Means算法融合的雷达信号分选[J]. 雷达科学与技术 2016(05)
    • [23].基于二分K-means的协同过滤推荐算法[J]. 软件导刊 2017(01)
    • [24].基于K-means算法分割遥感图像的阈值确定方法研究[J]. 科学技术与工程 2017(09)
    • [25].基于变精度粗糙集改进K-means聚类算法[J]. 办公自动化 2017(08)
    • [26].基于k-means聚类的管制员注意品质特征研究[J]. 中国安全科学学报 2017(06)
    • [27].自适应确定K-means算法的聚类数:以遥感图像聚类为例[J]. 华东师范大学学报(自然科学版) 2014(06)
    • [28].基于混沌理论和K-means聚类的有载分接开关机械状态监测[J]. 中国电机工程学报 2015(06)
    • [29].用核K-means聚类减样法优化半定规划支持向量机[J]. 江西师范大学学报(自然科学版) 2013(06)
    • [30].基于同态滤波和改进K-means的苹果分级算法研究[J]. 食品与机械 2019(12)

    标签:;  ;  ;  ;  

    基于新闻评论数据的K-means聚类算法的研究
    下载Doc文档

    猜你喜欢