基于边界距离的文本聚类方法研究

基于边界距离的文本聚类方法研究

论文摘要

文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。论文介绍了目前国内外文本聚类技术的研究现状,阐述了几种具有代表性的文本聚类方法,分析了它们的理论基础和算法特点。层次聚类算法是一类重要的聚类算法,簇间距离计算是层次聚类算法的关键,论文研究了层次聚类算法在簇间距离计算上的特点,发现现有的层次聚类算法在计算簇间距离时没有考虑类的形状和大小等信息,提出了一种新的基于边界距离的层次聚类算法,通过选择两个簇间K个边缘样本点的距离作为簇间距离,有效地利用簇的边界信息,提高簇间距离计算的准确性。不同文本集合上的实验表明,基于边界距离的聚类算法明显提高了文本聚类的性能。目前的特征选择算法多数是以词作为聚类特征,从本质上看只是一种词形匹配技术,忽略了词语的语言学特征和相互关系。论文将语义分析引入到文本聚类的任务中,提出一种基于知网的特征抽取方法。该方法从全文的角度解决词语的一词多义的现象,将词义排歧转化为对知网相关概念场中的词在全文中频率的计算,而后根据义原的描述能力将文本中的词映射为知网中的概念,在语义相关的文本之间建立联系,降低了特征空间的维数。词的频度和语义特征相结合后,提高了文本聚类的性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 前言
  • 1.1 聚类分析概述
  • 1.2 文本聚类
  • 1.2.1 文本聚类的定义
  • 1.2.2 文本聚类的主要应用
  • 1.2.3 文本聚类的难点
  • 1.3 本文的研究内容
  • 1.4 全文的组织结构
  • 第2章 文本聚类过程
  • 2.1 文本预处理
  • 2.2 特征选取
  • 2.3 文本表示
  • 2.3.1 布尔模型
  • 2.3.2 概率模型
  • 2.4 相似度计算
  • 2.4.1 相似性测度
  • 2.4.2 常用的距离函数
  • 2.4.3 相似系数函数
  • 2.5 聚类算法概述
  • 2.5.1 基于层次的方法(hierarchical method)
  • 2.5.2 基于划分的方法(partition-based clustering)
  • 2.5.3 基于密度的方法(density-based method)
  • 2.5.4 基于网格的方法(grid-based method)
  • 2.5.5 基于模型的方法(model-based method)
  • 2.5.6 后缀树算法(Suffix Tree Clustering)
  • 2.5.7 其他的聚类算法
  • 2.6 聚类质量的评测
  • 2.6.1 F-Measure
  • 2.6.2 纯度
  • 2.6.3 熵
  • 2.6.4 整体相似度
  • 2.7 小结
  • 第3章 基于边界距离的多向量文本聚类方法
  • 3.1 多向量文本表示
  • 3.1.1 传统向量空间模型
  • 3.1.2 多向量文本表示
  • 3.2 相似度定义
  • 3.3 基于边界距离的层次聚类算法
  • 3.4 实验语料
  • 3.5 实验结果及分析
  • 3.5.1 K 值的选取
  • 3.5.2 层次聚类算法对比实验
  • 3.5.3 特征选取与K 值的关系
  • 3.5.4 层次聚类算法与渐增式K-Means 算法的对比
  • 3.5.5 不同文本表示方法对比试验
  • 3.6 小结
  • 第4章 基于知网的特征抽取方法
  • 4.1 语义资源--知网
  • 4.2 基于知网相关概念场的词义消歧
  • 4.3 基于描述能力的义原抽取
  • 4.4 实验语料
  • 4.5 实验结果与分析
  • 4.6 小结
  • 结论
  • 参考文献
  • 致谢
  • 攻读硕士期间发表(含录用)的学术论文
  • 相关论文文献

    • [1].凝聚层次聚类算法在电厂设备故障预测上的研究[J]. 电气时代 2017(07)
    • [2].基于云平台的层次聚类算法在煤炭产业中的应用[J]. 煤炭技术 2013(12)
    • [3].一种改进的层次聚类算法[J]. 武汉理工大学学报(信息与管理工程版) 2011(06)
    • [4].凝聚型层次聚类算法的研究[J]. 科技信息(科学教研) 2008(11)
    • [5].基于不确定图的层次聚类算法研究[J]. 中国管理信息化 2012(24)
    • [6].一种基于类中心矫正的层次聚类算法[J]. 微电子学与计算机 2011(10)
    • [7].一种基于网格的层次聚类算法[J]. 河南师范大学学报(自然科学版) 2009(04)
    • [8].基于凝聚的层次聚类算法的改进[J]. 北京理工大学学报 2008(01)
    • [9].复杂网络社区挖掘——改进的层次聚类算法[J]. 微型机与应用 2011(16)
    • [10].基于交点的新层次聚类算法[J]. 信息技术与网络安全 2020(10)
    • [11].引入信息增益的层次聚类算法[J]. 计算机工程与应用 2012(01)
    • [12].基于核函数的层次聚类算法[J]. 暨南大学学报(自然科学与医学版) 2011(01)
    • [13].层次聚类算法的有效性研究[J]. 山东大学学报(工学版) 2010(05)
    • [14].一种改进的层次聚类算法[J]. 微电子学与计算机 2010(12)
    • [15].一种基于局部特征的层次聚类算法[J]. 中国海洋大学学报(自然科学版) 2019(S2)
    • [16].基于量值的频繁闭项集层次聚类算法[J]. 北京邮电大学学报 2011(06)
    • [17].一种模糊加权的改进层次聚类算法研究[J]. 微电子学与计算机 2011(09)
    • [18].基于约束动态更新的半监督层次聚类算法[J]. 自动化学报 2015(07)
    • [19].基于成对约束的半监督凝聚层次聚类算法[J]. 电脑编程技巧与维护 2013(24)
    • [20].层次聚类算法在图像处理中的应用[J]. 软件导刊 2008(08)
    • [21].带信息反馈的凝聚层次聚类算法[J]. 中国科学:信息科学 2012(06)
    • [22].融合拓扑势的自适应层次聚类算法研究[J]. 计算机应用研究 2020(S1)
    • [23].基于减法聚类的合并最优路径层次聚类算法[J]. 计算机工程 2015(06)
    • [24].层次聚类算法在气象客户细分中的应用[J]. 河南科技 2015(11)
    • [25].基于图形处理器的层次聚类算法效率研究[J]. 计算机工程与应用 2008(31)
    • [26].基于凝聚式信息瓶颈的加权层次聚类算法[J]. 计算机工程 2011(06)
    • [27].对犯罪网络的模糊层次聚类分析[J]. 西南师范大学学报(自然科学版) 2009(03)
    • [28].基于层次聚类算法的二氧化硅熔融表征模型[J]. 计算机系统应用 2020(09)
    • [29].维度概率摘要模型及其层次聚类算法[J]. 控制与决策 2017(08)
    • [30].基于改进型层次聚类算法的可重构制造系统的产品族划分[J]. 机械设计与制造 2011(08)

    标签:;  ;  ;  ;  

    基于边界距离的文本聚类方法研究
    下载Doc文档

    猜你喜欢