论文摘要
粗糙集理论对不完整、不精确信息和知识具有很强的分析处理能力,目前已成为智能信息处理中的一个热点研究内容,并已被广泛应用于机器学习、模式识别、知识发现、决策分析和过程控制等领域。本文重点讨论基于粗糙集的属性约简方法,提出了一种新的连续属性离散化算法和基于属性相似度的属性约简算法,并应用于石油测井的数据处理和油层识别之中。主要工作如下:(1)分析了典型的连续属性离散化算法,并指出了现有离散化算法的不足之处,即对于候选断点集的选择没有统一的理论指导,且所求得的断点数目太多或断点不合理。为此从数学曲线的拐点特性出发,提出了一种新的连续属性离散化算法,即先根据实际数据呈现的曲线分段特征,选取离散数据拐点作为候选断点集;然后采用粒子群优化算法(PSO)来优选候选断点集。仿真结果表明这种离散化算法是行之有效的。(2)讨论了目前常用的几种约简算法,指出了现有的基于属性重要性的约简算法存在着因属性重要性的定义不一而使约简结果各异,以及当多个属性的重要性相等时难以确定最简约简等问题。为此,根据条件属性与决策属性的相似关系,给出了属性相似度的概念,进而提出了基于属性相似度的属性约简算法,即在保证信息系统分类或决策能力不变的条件下,删除与决策属性相似度低的条件属性。这样约简计算简便、实用,仿真对比分析表明了其算法的可行性和优越性。(3)为解决复杂油井的油层识别问题,节约测井成本,以及为石油预测和决策服务,进行测井属性约简是一种有效途径。为此,提出了一种基于属性约简和最小二乘支持向量机(LS-SVM)的油层识别系统,并应用于某油田一关键井的油层识别之中,实际应用表明其油层识别结果与试油结论吻合,效果显著。