非监督知识发现过程中若干关键问题研究

非监督知识发现过程中若干关键问题研究

论文题目: 非监督知识发现过程中若干关键问题研究

论文类型: 博士论文

论文专业: 计算机应用技术

作者: 戴维迪

导师: 何丕廉

关键词: 聚类分析,数据挖掘,知识发现,加速比,流形学习,文本挖掘

文献来源: 天津大学

发表年度: 2005

论文摘要: 近年来,以计算机和通信为代表的信息技术得到迅猛发展,各个行业产生并累积了大量数据,迫切需要使用知识发现方法从中挖掘出有价值的新颖知识。目前的知识发现研究中,传统的线性预处理技术如PCA、CMDS等方法不能有效的处理非线性、强相关的高维数据,有较大的应用局限性;在数据挖掘过程中,基于密度的聚类方法往往存在着全局密度阈值的限制,对输入参数较为敏感等缺陷。本文针对当前研究中存在的问题,分别研究并提出了相应的解决方法,最后研究了这些方法在高维文本处理中的应用。针对数据预处理问题,本文提出了一种新的流形学习方法——可预知增量式嵌入PrePIE算法。该方法将全局优化方法和局域自组织原理相结合,在局域优化嵌入的基础上逼近全局优化的流形重构质量,从锚点集选择方法、锚点集嵌入方式、全局点集嵌入方式三个方面提高了低维嵌入流形的重构质量,提高了流形低维嵌入的稳定性和可用性。在数据挖掘阶段,本文针对当前基于密度的聚类知识发现方法存在的全局密度阈值限制,提出了基于局域密度分布自适应调整邻域半径的算法CABDET。该算法首先确立了簇内对象之间的邻接关系,通过考察父节点的局域密度状况动态调整当前节点的邻域半径,反复寻找各自的子节点,直到不能找到新的子节点时停止。CABDET算法不受全局密度阈值的限制,能够发现任意形状的簇,对参数的敏感性弱,能有效处理噪音数据。然而,CABDET算法存在执行时间长和小参数设置下的簇分裂现象。对此,本文又提出了一种基于局域计算的层次化密度树聚类方法LOCHDET。该算法通过预先指定局域计算系数将对象之间的相似性计算从全局转换到局域,大幅度提高了算法的执行效率,并对稀疏的相似矩阵实现了基于行的压缩。实验结果表明,在二维正态分布的测试集上,LOCHDET算法对CABDET算法的时间加速比在6~8之间。此外,LOCHDET算法采用层次化的聚类方法,将满足一定条件的簇合并,显著提高了聚类质量,解决了CABDET算法中存在的簇分裂现象。本文讨论了LOCHDET算法的模式发现能力及模式评估问题,并将数据预处理方法PrePIE和数据挖掘方法CABDET应用在具有高维特征的标准文本测试集上,研究了以F-measure值作为客观兴趣度度量的实际应用效果。实验结果表明,PrePIE方法能够有效的处理非线性高维的文本数据,提高聚类质量;CABDET方法可以发现多种聚类模式,取得了明显优于DBSCAN的聚类效果。

论文目录:

中文摘要

ABSTRACT

第一章 绪论

1.1 研究背景及研究意义

1.2 研究现状

1.2.1 机器学习

1.2.2 知识发现

1.3 论文的主要研究内容

1.4 论文结构

第二章 机器学习和知识发现概述

2.1 机器学习概述

2.1.1 机器学习

2.1.2 机器学习模型

2.1.3 机器学习目标

2.1.4 机器学习分类

2.1.5 机器学习小结

2.2 知识发现概述

2.2.1 知识发现

2.2.2 知识发现过程

2.2.3 知识发现任务

2.2.4 知识发现对象

2.2.5 知识发现的主要问题

2.2.6 知识发现小结

2.3 本章小结

第三章 数据预处理方法研究

3.1 流形的概念

3.2 线性维数约减方法

3.2.1 主成分分析PCA

3.2.2 经典多维尺度分析CMDS

3.2.3 线性维数约减方法小结

3.3 非线性维数约减方法

3.3.1 等距映射Isomap

3.3.2 局域线性嵌入LLE

3.3.3 自组织等距嵌入SIE

3.3.4 非线性维数约减方法小结

3.4 可预知增量式嵌入算法PrePIE

3.4.1 算法思想

3.4.2 算法框架

3.4.3 算法流程

3.4.4 复杂性分析

3.4.5 实验结果

3.4.6 算法讨论

3.4.7 PrePIE 算法小结

3.5 本章小结

第四章 基于构建密度树的聚类方法研究

4.1 基于划分的聚类方法

4.1.1 K 平均算法

4.1.2 K 中心点算法

4.2 基于层次的聚类方法

4.2.1 CURE 算法

4.2.2 BIRCH 算法

4.2.3 Chameleon 算法

4.3 基于网格的方法

4.3.1 统计信息网格STING

4.3.2 高维空间聚类CLIQUE

4.3.3 用小波变换聚类WaveCluster

4.4 基于模型的方法

4.4.1 统计学习方法

4.4.2 神经网络方法

4.5 基于密度的方法

4.5.1 DBSCAN 算法

4.5.2 OPTICS 算法

4.5.3 DENCLUE 算法

4.5.4 DILC 算法

4.6 基于构建密度树聚类算法CABDET

4.6.1 算法思想

4.6.2 算法框架

4.6.3 相关概念

4.6.4 算法流程

4.6.5 算法复杂性分析

4.6.6 实验结果

4.6.7 算法讨论

4.6.8 CABDET 算法小结

4.7 本章小结

第五章 基于局域计算的层次化密度树聚类方法研究

5.1 LOCHDET 算法思想

5.2 LOCHDET 算法框架

5.3 相关概念

5.4 LOCHDET 算法流程

5.5 LOCHDET 算法复杂性分析

5.6 LOCHDET 算法实验结果

5.7 LOCHDET 算法讨论

5.8 LOCHDET 算法小结

5.9 本章小结

第六章 数据预处理及聚类方法在文本处理中的应用研究

6.1 模式评估

6.2 文本处理

6.3 向量空间模型(VSM)

6.4 文本聚类结果的评价方法

6.5 实验设计与结果分析

6.5.1 实验设计

6.5.2 实验结果与分析

6.6 本章小结

第七章 结论与展望

参考文献

发表论文和科研情况说明

致谢

发布时间: 2007-07-10

相关论文

  • [1].基于领域知识的知识发现研究[D]. 杨立.中国科学院研究生院(软件研究所)2005
  • [2].流形学习的理论与方法研究[D]. 王靖.浙江大学2006
  • [3].知识发现中粗糙集理论的研究[D]. 刘少辉.中国科学院研究生院(计算技术研究所)2003
  • [4].基于粗糙集的知识发现方法研究[D]. 孙成敏.吉林大学2006
  • [5].基于多层关联规则的概念分层知识库中知识发现的研究[D]. 金胜男.天津大学2006
  • [6].基于粒度计算的知识发现研究及其应用[D]. 刘勇.浙江大学2006
  • [7].数据降维及分类中的流形学习研究[D]. 刘小明.浙江大学2007
  • [8].流形学习方法理论研究及图像中应用[D]. 黄启宏.电子科技大学2007
  • [9].机器学习及其神经网络分类器优化设计[D]. 胡静.合肥工业大学2007
  • [10].流形学习理论与算法研究[D]. 孙明明.南京理工大学2007

标签:;  ;  ;  ;  ;  ;  

非监督知识发现过程中若干关键问题研究
下载Doc文档

猜你喜欢