论文摘要
文本聚类在数据挖掘和机器学习中发挥着重要的作用。该技术经过巨大的发展,已产生了一系列的理论成果。K-means算法是文本聚类当中的经典算法之一,由于其时间复杂度低,在文本聚类领域中得到了广泛的应用。论文研究了文本聚类的关键技术与算法,提出了一种新的高性能无监督特征选择方法,并针对K-means算法的不足做了相应的改进工作。主要工作有:首先,在深入研究了文本聚类领域特征选择算法的基础上,发现一些算法存在不足之处,例如忽略了特征间的潜在关联。为了克服现有特征选择算法的缺陷,提高特征选择的效率,通过引入特征聚类的思想,提出了一种新的无监督特征选择算法,用以在保证聚类质量的前提下裁剪冗余特征词。其次,分析了欧式距离在度量文本相似性方面的缺陷,并对其做了校正处理。我们不仅考虑了文本中的词语频率信息,还结合词语对文本聚类的贡献差异度信息,提出了一种基于信息熵的赋权欧式距离计算方法。再次,提出了一种优化初始聚类中心的精确赋权K-means聚类算法。该算法从传统K-means算法选择的初始聚类中心可能不能很好地代表整个文本集分析出发,结合校正后的欧式距离计算方法对初始聚类中心进行优化,以保证选择的初始聚类中心比较分散且代表性好。给出了优化的精确赋权K-means算法的详细执行过程,并对算法的正确性和复杂度进行了分析。最后,通过详细的实验过程验证了本文的研究内容,通过与现有算法的对比,对实验结果进行了详细分析,从而验证算法的正确性与执行效率。
论文目录
相关论文文献
- [1].基于K-means聚类的航空复合材料敲击检测研究[J]. 航空科学技术 2019(10)
- [2].基于K-means的电力系统典型日负荷特性计算方法研究[J]. 无线互联科技 2020(01)
- [3].基于k-means聚类算法的高校人才评价分析——以泸州职业技术学院为例[J]. 数字技术与应用 2019(12)
- [4].基于K-means聚类方法的早期聚落规模等级研究[J]. 地域研究与开发 2020(02)
- [5].基于改进k-means的电力信息系统异常检测方法[J]. 深圳大学学报(理工版) 2020(02)
- [6].基于红外图像特征与K-means的边缘检测[J]. 红外技术 2020(01)
- [7].基于k-means聚类分析法的四川省区域经济差异时空演化分析[J]. 甘肃科技 2020(01)
- [8].K-Means聚类分析法筛选柠檬香茅茎叶差异蛋白及鉴定[J]. 应用化学 2020(04)
- [9].基于特征融合的K-means微博话题发现模型[J]. 电子技术应用 2020(04)
- [10].基于K-means聚类挖掘智能机器人领域技术创新人才[J]. 新世纪图书馆 2020(03)
- [11].基于改进K-Means算法的图书馆读者阅读需求实证研究[J]. 新世纪图书馆 2020(05)
- [12].基于k-means聚类分析在高校学生成绩中的应用研究[J]. 科技经济导刊 2020(21)
- [13].基于K-means的多维聚类算法在客户信息中的应用[J]. 软件 2020(07)
- [14].基于K-means++算法的三相电能表评价模型研究[J]. 电测与仪表 2020(17)
- [15].K-means算法在农资网站客户管理中的应用[J]. 枣庄学院学报 2020(05)
- [16].基于遗传算法的K-means聚类改进研究[J]. 计算机与数字工程 2020(08)
- [17].基于K-means聚类的沙尘天气快速识别技术研究[J]. 中国环境监测 2020(05)
- [18].基于K-means聚类分析的汽车行驶工况构建[J]. 物流科技 2020(11)
- [19].基于k-means聚类的我国乳制品消费集群研究——来自全国31个省份乳制品消费数据的分析[J]. 中国乳品工业 2019(10)
- [20].基于球面距离的K-means聚类任务打包[J]. 嘉兴学院学报 2019(06)
- [21].基于K-means算法的数据挖掘与客户细分研究[J]. 市场研究 2019(11)
- [22].数据场和K-Means算法融合的雷达信号分选[J]. 雷达科学与技术 2016(05)
- [23].基于二分K-means的协同过滤推荐算法[J]. 软件导刊 2017(01)
- [24].基于K-means算法分割遥感图像的阈值确定方法研究[J]. 科学技术与工程 2017(09)
- [25].基于变精度粗糙集改进K-means聚类算法[J]. 办公自动化 2017(08)
- [26].基于k-means聚类的管制员注意品质特征研究[J]. 中国安全科学学报 2017(06)
- [27].自适应确定K-means算法的聚类数:以遥感图像聚类为例[J]. 华东师范大学学报(自然科学版) 2014(06)
- [28].基于混沌理论和K-means聚类的有载分接开关机械状态监测[J]. 中国电机工程学报 2015(06)
- [29].用核K-means聚类减样法优化半定规划支持向量机[J]. 江西师范大学学报(自然科学版) 2013(06)
- [30].基于同态滤波和改进K-means的苹果分级算法研究[J]. 食品与机械 2019(12)