基于概念格的K-Means算法研究及应用

基于概念格的K-Means算法研究及应用

论文摘要

随着互联网的快速发展,搜索引擎成为人们获取信息的主要渠道。然而搜索引擎的一次检索结果动则成千上万,所有类别的信息混杂在一起,用户要找到自己想要的信息如大海捞针。改善搜索引擎检索质量的一种有效途径是应用文本聚类技术将web搜索结果中相似的web文本聚集成为一类。对web搜索结果进行聚类,可以为用户提供易于浏览的信息导航,帮助用户快速定位到符合自己查询需要的主题类别,从而提高搜索引擎的检索效率。聚类是在预先不知道类别的情况下,将对象集合按有关的相似程度进行分组的过程。聚类之前,文本的表示大部分采用的是向量空间模型,在此基础上进行相似度计算。向量空间模型采用TF X IDF(Term Frequency X Inverse Document Frequency)计算权重。它的优点是反映了关键词对于文本的重要性,但是这种表示模型带来了两个问题:(1)表示文本的特征向量维度过高;(2)文本被看作是由一组正交词条向量所组成的向量空间,其假设前提是词与词之间没有语义联系,但现实文本中的用词往往是有语义关联的,因此对计算结果的可靠性造成一定的影响。概念格是一组概念的序集,建立概念格的过程就是对概念进行聚类的过程。在概念格中,概念的外延为属于这个概念的所有对象的集合,而内涵是所有这些对象所共有的属性集。给定一个形式背景就能在此基础上构造概念格,且构造出的概念格是唯一的。K-Means算法是目前应用最为广泛的一种基于划分的聚类算法。本文将概念格与K-Means算法相结合,提出了一种新的聚类方法—K-MeansBCC (K-Means Algorithm Based on Concept Lattice)。将文本作为对象,文本中的特征词作为属性生成概念格;提取概念格中的概念并采用概念表示文本,且定义了概念之间相似度函数;最后,用K-Means算法进行聚类。用概念来表示文本,降低了特征词的维数,提高了聚类的性能。另外,对K-Means算法人为确定K值、随机选取中心点的缺点提出了一种基于密度的解决方法。将K-MeansBCC算法应用在“海搜”的聚类模块,并与K-Means算法做比较,实验表明,K-MeansBCC算法具有明显的合理性和有效性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.3 主要研究内容
  • 1.4 论文章节安排
  • 第2章 形式概念分析与文本聚类
  • 2.1 形式概念分析
  • 2.1.1 形式概念分析相关定义
  • 2.1.2 概念格的构造算法
  • 2.2 文本聚类
  • 2.2.1 文本表示模型
  • 2.2.2 文本聚类算法分析
  • 第3章 基于概念格的K-MEANS文本聚类
  • 3.1 文本预处理和特征词抽取
  • 3.1.1 分词和停用词过滤
  • 3.1.2 特征词抽取
  • 3.2 基于概念格的文本表示模型
  • 3.2.1 构造形式背景
  • 3.2.2 文本的概念表示模型
  • 3.3 基于概念格的K-Means算法
  • 3.3.1 文本相似度计算
  • 3.3.2 K值与初始中心点的选取
  • 3.3.3 基于概念格的K-Means算法——K-MeansBCC
  • 3.3.4 类标签选择
  • 第4章 海事搜索引擎聚类模块设计与实现
  • 4.1 开发环境的配置
  • 4.1.1 搜索引擎—海搜
  • 4.1.2 概念格构建工具—ConExp
  • 4.1.3 开发语言—Java
  • 4.1.4 集成开发环境—Eclipse
  • 4.2 聚类模块的设计
  • 4.2.1 聚类模块的处理流程设计
  • 4.2.2 数据库表设计
  • 4.3 聚类模块的实现
  • 第5章 实验分析与评估
  • 5.1 聚类指标
  • 5.2 聚类分析
  • 第6章 总结与展望
  • 6.1 论文总结
  • 6.2 工作展望
  • 参考文献
  • 攻读学位期间公开发表论文
  • 致谢
  • 研究生履历
  • 相关论文文献

    • [1].基于K-means聚类的航空复合材料敲击检测研究[J]. 航空科学技术 2019(10)
    • [2].基于K-means的电力系统典型日负荷特性计算方法研究[J]. 无线互联科技 2020(01)
    • [3].基于k-means聚类算法的高校人才评价分析——以泸州职业技术学院为例[J]. 数字技术与应用 2019(12)
    • [4].基于K-means聚类方法的早期聚落规模等级研究[J]. 地域研究与开发 2020(02)
    • [5].基于改进k-means的电力信息系统异常检测方法[J]. 深圳大学学报(理工版) 2020(02)
    • [6].基于红外图像特征与K-means的边缘检测[J]. 红外技术 2020(01)
    • [7].基于k-means聚类分析法的四川省区域经济差异时空演化分析[J]. 甘肃科技 2020(01)
    • [8].K-Means聚类分析法筛选柠檬香茅茎叶差异蛋白及鉴定[J]. 应用化学 2020(04)
    • [9].基于特征融合的K-means微博话题发现模型[J]. 电子技术应用 2020(04)
    • [10].基于K-means聚类挖掘智能机器人领域技术创新人才[J]. 新世纪图书馆 2020(03)
    • [11].基于改进K-Means算法的图书馆读者阅读需求实证研究[J]. 新世纪图书馆 2020(05)
    • [12].基于k-means聚类分析在高校学生成绩中的应用研究[J]. 科技经济导刊 2020(21)
    • [13].基于K-means的多维聚类算法在客户信息中的应用[J]. 软件 2020(07)
    • [14].基于K-means++算法的三相电能表评价模型研究[J]. 电测与仪表 2020(17)
    • [15].K-means算法在农资网站客户管理中的应用[J]. 枣庄学院学报 2020(05)
    • [16].基于遗传算法的K-means聚类改进研究[J]. 计算机与数字工程 2020(08)
    • [17].基于K-means聚类的沙尘天气快速识别技术研究[J]. 中国环境监测 2020(05)
    • [18].基于K-means聚类分析的汽车行驶工况构建[J]. 物流科技 2020(11)
    • [19].基于k-means聚类的我国乳制品消费集群研究——来自全国31个省份乳制品消费数据的分析[J]. 中国乳品工业 2019(10)
    • [20].基于球面距离的K-means聚类任务打包[J]. 嘉兴学院学报 2019(06)
    • [21].基于K-means算法的数据挖掘与客户细分研究[J]. 市场研究 2019(11)
    • [22].数据场和K-Means算法融合的雷达信号分选[J]. 雷达科学与技术 2016(05)
    • [23].基于二分K-means的协同过滤推荐算法[J]. 软件导刊 2017(01)
    • [24].基于K-means算法分割遥感图像的阈值确定方法研究[J]. 科学技术与工程 2017(09)
    • [25].基于变精度粗糙集改进K-means聚类算法[J]. 办公自动化 2017(08)
    • [26].基于k-means聚类的管制员注意品质特征研究[J]. 中国安全科学学报 2017(06)
    • [27].自适应确定K-means算法的聚类数:以遥感图像聚类为例[J]. 华东师范大学学报(自然科学版) 2014(06)
    • [28].基于混沌理论和K-means聚类的有载分接开关机械状态监测[J]. 中国电机工程学报 2015(06)
    • [29].用核K-means聚类减样法优化半定规划支持向量机[J]. 江西师范大学学报(自然科学版) 2013(06)
    • [30].基于同态滤波和改进K-means的苹果分级算法研究[J]. 食品与机械 2019(12)

    标签:;  ;  ;  ;  ;  

    基于概念格的K-Means算法研究及应用
    下载Doc文档

    猜你喜欢