论文摘要
随着互联网的快速发展,搜索引擎成为人们获取信息的主要渠道。然而搜索引擎的一次检索结果动则成千上万,所有类别的信息混杂在一起,用户要找到自己想要的信息如大海捞针。改善搜索引擎检索质量的一种有效途径是应用文本聚类技术将web搜索结果中相似的web文本聚集成为一类。对web搜索结果进行聚类,可以为用户提供易于浏览的信息导航,帮助用户快速定位到符合自己查询需要的主题类别,从而提高搜索引擎的检索效率。聚类是在预先不知道类别的情况下,将对象集合按有关的相似程度进行分组的过程。聚类之前,文本的表示大部分采用的是向量空间模型,在此基础上进行相似度计算。向量空间模型采用TF X IDF(Term Frequency X Inverse Document Frequency)计算权重。它的优点是反映了关键词对于文本的重要性,但是这种表示模型带来了两个问题:(1)表示文本的特征向量维度过高;(2)文本被看作是由一组正交词条向量所组成的向量空间,其假设前提是词与词之间没有语义联系,但现实文本中的用词往往是有语义关联的,因此对计算结果的可靠性造成一定的影响。概念格是一组概念的序集,建立概念格的过程就是对概念进行聚类的过程。在概念格中,概念的外延为属于这个概念的所有对象的集合,而内涵是所有这些对象所共有的属性集。给定一个形式背景就能在此基础上构造概念格,且构造出的概念格是唯一的。K-Means算法是目前应用最为广泛的一种基于划分的聚类算法。本文将概念格与K-Means算法相结合,提出了一种新的聚类方法—K-MeansBCC (K-Means Algorithm Based on Concept Lattice)。将文本作为对象,文本中的特征词作为属性生成概念格;提取概念格中的概念并采用概念表示文本,且定义了概念之间相似度函数;最后,用K-Means算法进行聚类。用概念来表示文本,降低了特征词的维数,提高了聚类的性能。另外,对K-Means算法人为确定K值、随机选取中心点的缺点提出了一种基于密度的解决方法。将K-MeansBCC算法应用在“海搜”的聚类模块,并与K-Means算法做比较,实验表明,K-MeansBCC算法具有明显的合理性和有效性。
论文目录
相关论文文献
- [1].基于K-means聚类的航空复合材料敲击检测研究[J]. 航空科学技术 2019(10)
- [2].基于K-means的电力系统典型日负荷特性计算方法研究[J]. 无线互联科技 2020(01)
- [3].基于k-means聚类算法的高校人才评价分析——以泸州职业技术学院为例[J]. 数字技术与应用 2019(12)
- [4].基于K-means聚类方法的早期聚落规模等级研究[J]. 地域研究与开发 2020(02)
- [5].基于改进k-means的电力信息系统异常检测方法[J]. 深圳大学学报(理工版) 2020(02)
- [6].基于红外图像特征与K-means的边缘检测[J]. 红外技术 2020(01)
- [7].基于k-means聚类分析法的四川省区域经济差异时空演化分析[J]. 甘肃科技 2020(01)
- [8].K-Means聚类分析法筛选柠檬香茅茎叶差异蛋白及鉴定[J]. 应用化学 2020(04)
- [9].基于特征融合的K-means微博话题发现模型[J]. 电子技术应用 2020(04)
- [10].基于K-means聚类挖掘智能机器人领域技术创新人才[J]. 新世纪图书馆 2020(03)
- [11].基于改进K-Means算法的图书馆读者阅读需求实证研究[J]. 新世纪图书馆 2020(05)
- [12].基于k-means聚类分析在高校学生成绩中的应用研究[J]. 科技经济导刊 2020(21)
- [13].基于K-means的多维聚类算法在客户信息中的应用[J]. 软件 2020(07)
- [14].基于K-means++算法的三相电能表评价模型研究[J]. 电测与仪表 2020(17)
- [15].K-means算法在农资网站客户管理中的应用[J]. 枣庄学院学报 2020(05)
- [16].基于遗传算法的K-means聚类改进研究[J]. 计算机与数字工程 2020(08)
- [17].基于K-means聚类的沙尘天气快速识别技术研究[J]. 中国环境监测 2020(05)
- [18].基于K-means聚类分析的汽车行驶工况构建[J]. 物流科技 2020(11)
- [19].基于k-means聚类的我国乳制品消费集群研究——来自全国31个省份乳制品消费数据的分析[J]. 中国乳品工业 2019(10)
- [20].基于球面距离的K-means聚类任务打包[J]. 嘉兴学院学报 2019(06)
- [21].基于K-means算法的数据挖掘与客户细分研究[J]. 市场研究 2019(11)
- [22].数据场和K-Means算法融合的雷达信号分选[J]. 雷达科学与技术 2016(05)
- [23].基于二分K-means的协同过滤推荐算法[J]. 软件导刊 2017(01)
- [24].基于K-means算法分割遥感图像的阈值确定方法研究[J]. 科学技术与工程 2017(09)
- [25].基于变精度粗糙集改进K-means聚类算法[J]. 办公自动化 2017(08)
- [26].基于k-means聚类的管制员注意品质特征研究[J]. 中国安全科学学报 2017(06)
- [27].自适应确定K-means算法的聚类数:以遥感图像聚类为例[J]. 华东师范大学学报(自然科学版) 2014(06)
- [28].基于混沌理论和K-means聚类的有载分接开关机械状态监测[J]. 中国电机工程学报 2015(06)
- [29].用核K-means聚类减样法优化半定规划支持向量机[J]. 江西师范大学学报(自然科学版) 2013(06)
- [30].基于同态滤波和改进K-means的苹果分级算法研究[J]. 食品与机械 2019(12)