基于增量聚类和ReliefF的特征选择方法

基于增量聚类和ReliefF的特征选择方法

论文摘要

随着计算机科学技术的迅速发展以及人工智能技术的兴起,模式识别得到越来越广泛的应用。人们在进行模式识别时,通常需要采集数量巨大的原始特征,使得原始特征空间的维数达到几千甚至几万维,大大降低了识别效率和识别正确率。特征选择作为模式识别中非常重要和关键的一个步骤,对分类决策而言,起着非常重要的作用,直接影响识别结果。本文在全面分析现有特征选择方法的基础上,重点研究了Relief特征选择方法。相对其它特征选择方法,Relief不管是时间代价还是对数据类型的限制上都有明显的优势。因此,选择Relief算法的改进算法ReliefF作为研究的出发点。ReliefF算法是一种有监督学习的特征选择方法,很大程度上依赖于类别标签。而以聚类为基本工具进行特征选择,不需要依赖类别标签,对数据类型没有约束,更适合于大规模数据集,能够适用于任何情况下的数据降维。将聚类和ReliefF方法结合起来,能在无类别标签的情况下,利用ReliefF方法实现对大规模数据集进行特征选择。为此,本文对增量聚类与ReliefF相结合的特征选择方法进行了较深入的研究。研究发现,增量聚类方法和ReliefF方法均存在一些不足,若简单地将这两种方法组合起来进行特征选择,这些问题并不能解决。在全面分析增量聚类方法和ReliefF方法存在的问题的基础上,针对增量聚类和ReliefF方法的不足,提出改进策略:(1)通过可调参数的设置,将聚类半径确定在一个初始范围内,由后期实验确定可调参数取值;引入最小距离原则确定样本对象归属;(2)引入信息熵理论,计算不同聚类数目时信息熵值,选择信息熵最小的值对应的聚类数目作为增量聚类的最终聚类数目;(3)提出一种解决混合属性冗余问题的方法,分别利用相关系数ρ和互信息方法来计算特征之间的相关度,找出相关度大的特征(即冗余特征),将之删除。在此基础上,提出了一种基于增量聚类和ReliefF的特征选择方法——ICB-ReliefF.在选择出的UCI数据集上,将本文提出的ICB-ReliefF方法与已有方法进行对比实验,利用Weka软件中的C4.5决策树分类算法进行分类。实验结果表明,本文方法ICB-ReliefF相对已有方法在分类正确率和特征子集大小这两个指标上有明显提高。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 研究内容及组织安排
  • 1.3.1 主要工作
  • 1.3.2 论文结构
  • 第2章 特征选择方法研究
  • 2.1 特征选择概述
  • 2.2 特征选择方法分类
  • 2.2.1 按子集生成与搜索策略
  • 2.2.2 按子集评价策略
  • 2.2.3 按与学习算法的结合方式
  • 2.2.4 按是否依赖类别标记
  • 2.4 常用特征选择方法
  • 2.5 特征选择方法主要研究方向
  • 2.6 本章小结
  • 第3章 聚类方法
  • 3.1 什么是聚类
  • 3.2 聚类分析中的数据类型
  • 3.2.1 主要数据结构
  • 3.2.2 基本变量类型
  • 3.3 主要聚类方法分类
  • 3.4 聚类分析方法的发展方向
  • 3.5 本章小结
  • 第4章 一种基于增量聚类和ReliefF的特征选择方法
  • 4.1 ReliefF特征选择方法
  • 4.1.1 概述
  • 4.1.2 存在的问题
  • 4.2 增量聚类方法
  • 4.2.1 概述
  • 4.2.2 存在的问题
  • 4.3 基于增量聚类和ReliefF的特征选择方法——ICB-ReliefF
  • 4.3.1 相关定义
  • 4.3.2 确定聚类半径
  • 4.3.3 确定聚类数目
  • 4.3.4 冗余度量
  • 4.3.5 ICB-ReliefF方法
  • 4.4 本章小结
  • 第5章 实验
  • 5.1 实验数据集
  • 5.2 实验方法
  • 5.3 数据预处理
  • 5.3.1 特征分类
  • 5.3.2 缺失值
  • 5.4 参数确定
  • 5.4.1 可调参数a、b
  • 5.4.2 聚类数目k
  • 5.5 特征子集选取
  • 5.6 实验结果分析
  • 5.7 本章小结
  • 第6章 总结
  • 6.1 工作总结
  • 6.2 进一步工作
  • 参考文献
  • 致谢
  • 发表文章
  • 相关论文文献

    标签:;  ;  

    基于增量聚类和ReliefF的特征选择方法
    下载Doc文档

    猜你喜欢