面向非平衡混合型数据的分类算法及应用研究

面向非平衡混合型数据的分类算法及应用研究

论文摘要

非平衡混合数据分类处理在现实应用中非常普遍,该数据具有分布不均匀,属性多样等特性。传统的分类学习方法在处理该类型数据时有效性不高,而且在少数类样本足够重要时,甚至会导致较大的损失,因此针对非平衡混合数据的处理方法成为当前国内外数据挖掘研究的重点之一。本文的研究工作以传统的分类方法为基础,通过对传统分类算法的改进,实现对非平衡混合数据的处理。通过分析发现计数最近邻分类算法(K—nearest Neightbours By Counting,CwkNN)可以有效地对混合型数据进行分类,但该算法对非平衡性数据处理效果不理想。本文在CwkNN算法的基础之上结合数据的非平衡性特点提出了三种改进的分类方法,分别为如下所述:(1)全局密度分类算法:针对CwkNN算法不能处理非平衡型数据的特点,引入一个全局密度,重新平衡数据对分类的影响度。实验发现提高了少数类样本的分类精度,降低了多数类样本的分类精度。(2)K—局部密度分类算法:针对全局密度分类算法降低了多数类样本的分类精度,引入K-局部密度,保证在提高少数类样本分类精度的同时,不会降低多数类样本的分类精度,实验证明该方法有效地提高了非平衡型数据的分类精度。(3)基于密度的边界点检测及分类算法:针对数据中的边界点,提出了基于密度的边界点检测方法,并对检测出来的边界点采用边界点三种分类方法进行分类。实验证明通过这些方法对存在边界点的非平衡数据可进行正确分类。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 对非平衡混合数据分类算法研究的意义
  • 1.2 数据挖掘中的分类及其在生命医学中的应用现状
  • 1.2.1 数据挖掘中的分类技术
  • 1.2.2 分类在医疗中的应用
  • 1.3 本文的研究内容
  • 1.4 本文的结构安排
  • 第二章 非平衡数据处理方法与技术
  • 2.1 非平衡数据分类困难性分析
  • 2.2 非平衡型数据的主要分类处理方法与技术
  • 2.2.1 评估度量选择法
  • 2.2.2 典型的非贪心搜索技术
  • 2.2.3 归纳偏移自适应技术
  • 2.2.4 少数类训练法
  • 2.2.5 分割数据法
  • 2.2.6 最低支持度阈值自适应技术
  • 2.2.7 代价敏感度训练技术
  • 2.2.8 非平衡数据采样法
  • 2.2.9 元学习
  • 2.2.10 其它方法
  • 2.3 本章小结
  • 第三章 基于密度的CwkNN算法
  • 3.1 k─最近邻分类算法回顾
  • 3.1.1 基于距离权重的kNN规则
  • 3.1.2 证据理论kNN规则
  • 3.1.3 带有符号特征的kNN
  • 3.1.4 计数最近邻分类算法
  • 3.2 基于密度的CwkNN算法
  • 3.2.1 全局密度分类算法
  • 3.2.2 k-局部密度分类算法
  • 3.3 基于密度的边界点检测及分类方法
  • 3.3.1 边界点检测方法概述
  • 3.3.2 基于密度的边界点检测
  • 3.3.3 基于密度的边界点分类方法
  • 3.4 密度分类算法实验结果及分析
  • 3.4.1 全局密度分类算法的实验结果及分析
  • 3.4.2 k─局部密度分类算法的实验结果及分析
  • 3.4.3 边界点分类的结果及其分析
  • 3.5 密度分类算法和vkNN/tkNN的比较
  • 3.6 本章小结
  • 第四章 密度分类子模块的设计与实现
  • 4.1 系统的总体框架
  • 4.2 分类模块的需求分析
  • 4.2.1 分类子系统的基本要求
  • 4.2.2 分类子系统的功能需求
  • 4.3 分类模块的设计与实现
  • 4.3.1 分类模块的设计
  • 4.3.2 分类模块的实现
  • 4.4 本章小结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 致谢
  • 攻读学位期间主要的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    面向非平衡混合型数据的分类算法及应用研究
    下载Doc文档

    猜你喜欢