混合数据知识发现的粗糙计算模型和算法

论文摘要

机器学习和知识发现是人工智能最重要的研究方向,而复杂环境下信息的不确定性和不一致性是知识发现面临的主要困难。粗糙集理论模拟了人类认知推理中粒化和近似的特点,是刻画分类数据的不一致性程度的有效数学工具,已经成功应用于符号数据知识发现,但是还没有系统研究广泛存在的符号、数值和模糊变量共存的复杂分类问题。本文提出在人类的思维中存在6种决策的一致性假设。基于粗糙计算方法论中粒化和近似的思想,本文分别建立了这些一致性假设的数学模型,并给出了一般形式。具体从以下几个方面进行了探索:第一,提出了度量空间多粒度分类学习的邻域粗糙计算模型和算法。度量空间中点的δ邻域形成了论域的一种粒化结构,基于邻域粒化建立了度量空间的邻域粗糙集模型,形成了度量空间分类分类一致性的粗糙计算模型。邻域的大小可视为分析分类的粒度,改变邻域的大小可形成混合数据分类一致性的多粒度分析工具。基于邻域粗糙集模型设计了边界样本选择算法和混合数据属性约简算法。第二,提出了混合数据分类分析的核模糊粗糙计算模型和算法。当前模糊粗糙集的研究主要集中于模糊近似算子的构造,忽略了对模糊粒化结构的分析。研究发现一大类核函数计算的核矩阵都满足模糊等价关系的性质,从而可引入这些核函数为模糊粗糙计算建立模糊粒化结构。本文提出了基于核函数粒化的核模糊粗糙集模型,建立了分类模糊一致性分析的数学模型。设计了基于核近似的混合属性重要度评价指标,探讨了模糊依赖度函数和特征评价算法ReliefF之间的关联,提出了抗噪声的属性约简算法和大样本集的样本加权重采样方法。第三,提出了混合数据描述的有序决策问题的模糊偏好粗糙分析模型。有序分类学习是一大类分类学习任务,在多标准决策分析中具有重要的地位。本文引入多标准决策分析中广泛使用的模糊偏好关系,并将其与广义的模糊粗糙集模型结合起来,从而建立了混合数据排序一致性分析的模糊粗糙计算模型。第四,给出了一系列粗糙计算模型的一般形式,统一了Pawlak粗糙集、邻域粗糙集、核粒化粗糙集和模糊偏好粗糙集,从而建立了粗糙数据分析的统一视角。并且基于一般模型,提出了各种近似空间的不确定性的统一度量模型。分析表明多种近似空间的不确定性程度都可以采用这一信息函数进行刻画。由此,本文给出了混合数据描述的一般分类问题和有序决策问题的一般信息度量理论。第五,本文分析了各种粗糙集属性评价指标的参数和样本稳定性。研究表明,信息熵和模糊信息熵是非常稳定的属性评价指标,少量样本的扰动不会对属性约简产生影响,而邻域依赖度和邻域一致性是不稳定的评价函数,评价结果易受样本扰动影响。第六,设计了混合数据约简的算法平台,测试了各种算法在真实分类中的性能,并提出采用选择性集成方法利用多个约简的互补信息。某些决策系统可以得到一组约简,每个约简都保持了原始数据分类的一致性,提供了分类数据的一种理解视角。基于选择性多分类器集成的研究成果,本文提出有选择地集成部分约简训练的分类器构造多分类器系统,并且设计了前向贪心选择和后剪枝的分类器选择策略,试验表明该方法能够获得相对紧凑并且分类能力很强的多分类器系统。本文的研究建立了符号和数值数据共存的混合决策系统的粗糙计算模型。基于邻域粗糙集模型和核粒化的模糊粗糙集模型,本文建立了混合数据一般分类问题的统一计算模型。接下来又基于模糊偏好粗糙模型建立了混合数据有序分类问题的粗糙计算模型。最后,本文基于广义的粗糙模型统一了一般分类问题和有序分类问题的粗糙计算模型,并为各种粗糙计算模型提出了统一的信息度量理论,从而形成了一大类决策问题的粗糙计算理论。

论文目录

摘要

Abstract

第1章绪论

1.1 混合数据知识发现的研究意义

1.2 混合数据分类知识发现的不确定性分析

1.2.1 数据类型及其信息结构分析

1.2.2 混合数据分类的不确定性分析

1.3 混合数据分类知识发现的研究现状

1.3.1 特征选择和属性约简的研究现状

1.3.2 分类建模的研究现状

1.3.3 混合数据分析的现有方法及存在的问题

1.4 基于粗糙集的分类不确定性刻画

1.4.1 粗糙计算模型的研究现状

1.4.2 粗糙计算算法设计现状

1.4.3 粗糙集应用研究现状

1.4.4 现有粗糙集模型处理混合数据存在的问题

1.5 对若干粗糙计算观点的评述

1.5.1 粗糙计算中分类能力定义的评述

1.5.2 粒计算、词计算与粗糙计算的多样性

1.6 本文的研究内容和组织结构

第2章混合数据多粒度粗糙计算的邻域模型

2.1 引言

2.2 基于邻域粒化的混合数据分析模型

2.2.1 邻域粗糙集

2.2.2 邻域决策系统

2.2.3 关于邻域粗糙集的理解

2.2.4 基于邻域模型的多粒度可分性分析

2.3 基于邻域粗糙集的边界样本选择

2.4 基于邻域粗糙集的混合数据属性约简

2.4.1 算法设计

2.4.2 测试分析

2.5 基于邻域一致性分析的混合数据属性约简

2.5.1 邻域依赖度指标存在的问题

2.5.2 邻域一致性指标及特性分析

2.5.3 算法设计

2.5.4 测试分析

2.6 本章小结

第3章混合数据模糊粗糙计算的核粒化模型

3.1 引言

3.2 模糊集和模糊粗糙集的基本概念

3.2.1 模糊集和模糊算子

3.2.2 模糊粗糙集

3.3 基于核函数的模糊粗糙逼近

3.3.1 模糊粗糙集与核学习机器的潜在联系

3.3.2 核模糊粗糙集模型

3.3.3 基于核的分类逼近

3.4 基于核模糊逼近的属性依赖性分析

3.5 核模糊粗糙集与ReliefF 算法的关系

3.6 基于核模糊逼近的混合数据属性约简

3.6.1 算法设计

3.6.2 测试分析

3.7 基于核模糊逼近的海量样本加权采样

3.7.1 KNN 中样本选择研究现状

3.7.2 FAIR-KNN 算法设计

3.7.3 实验分析

3.8 本章小结

第4章有序决策模糊粗糙计算的模糊偏好模型

4.1 引言

4.2 经典优势关系粗糙集

4.3 模糊偏好关系粗糙集

4.3.1 模糊偏好关系

4.3.2 模糊偏好决策逼近

4.4 多类型属性共存时的有序决策分析模型

4.5 近似质量分析和有序决策约简

4.6 应用分析

4.7 本章小结

第5章混合数据粗糙计算模型与信息度量的统一

5.1 引言

5.2 基于模糊粗糙集的混合数据分析模型的统一

5.3 广义近似空间的信息度量

5.3.1 模糊关系的信息熵及性质

5.3.2 Pawlak 近似空间的Shannon 熵与模糊熵的关系

5.3.3 模糊近似空间不确定性的模糊信息熵度量

5.3.4 模糊偏好关系近似空间的不确定性

5.4 基于信息熵的混合数据约简方法

5.5 本章小结

第6章混合数据粗糙约简的稳健性分析

6.1 引言

6.2 三类不稳健性及估计

6.3 稳健性矩阵的总体稳健性

6.4 评价的属性重要度指标

6.5 实验分析

6.6 本章小结

第7章混合数据属性约简系统设计和应用

7.1 引言

7.2 混合数据属性选择的系统框架

7.3 进行对比的经典方法

7.3.1 基于信息熵的特征选择

7.3.2 基于相关性的混合数据特征选择

7.3.3 ReliefF 方法

7.3.4 基于支持向量机的特征评价

7.3.5 基于一致性的特征选择

7.4 混合数据属性约简算法的实验测试

7.4.1 实验数据

7.4.2 实验结果

7.4.3 特征选择过拟合现象分析

7.5 属性约简应用于汽车发动机故障诊断

7.6 属性约简应用于癌症识别中的基因选择

7.7 属性约简应用于多分类器系统构造

7.7.1 EROS 的基本原理

7.7.2 EROS 构造算法

7.7.3 实验分析

7.8 本章小结

结论

参考文献

攻读学位期间发表的学术论文

攻读博士学位期间参与的科研项目

致谢

个人简历

混合数据知识发现的粗糙计算模型和算法

论文摘要

论文目录

相关论文文献

猜你喜欢