数据挖掘技术在节水管理中的应用

数据挖掘技术在节水管理中的应用

云南省水利水电科学研究院云南省昆明市650028

摘要:科技在快速的发展,社会在不断的进步,为提升水资源配置效率,应用数据挖掘技术,对全国首次重点用水单位监控工作中所获得的约26万个用水数据进行了特征选择和用水模式区分。依据DBindex准则,从用水特征中筛选出现状、愿景和波动3个特征。从这3个特征入手,采用k-means算法,将用水主体划分为5种用水模式,即均衡扩张型、均衡紧缩型、集中稳定型、波动收缩型和波动扩张型。结果表明:全国大多数用水单位现状特征集中在[0.7,0.9]、愿景特征集中在[0.8,1.0]、波动特征集中在[0.1,0.5],较内地用水,东南沿海用水量在年内各月间波动较小。用水模式以波动收缩型为主,该模式涵盖多数产能过剩的高耗水行业;农业的用水模式为集中稳定型;高新技术与服务业的用水模式多为波动扩张型与均衡扩张型。结合不同的用水特征和用水模式,在法律、制度、监控等层面分别提出了管理建议,可为精准化、差异化节水管理提供参考。

关键词:节水管理;数据挖掘;用水特征;用水模式;DBindex准则

引言

随着我国水资源短缺、水环境日益恶化,建设节水型社会成为解决我国水问题的根本途径和有效措施。在知识经济和信息时代,传统水资源管理方式已不能满足节水型社会现代化建设的需要,开发节水型社会MIS(管理信息系统)迫在眉睫。但是,在节水型社会MIS的建设过程中,如何把海量数据转化为有用的信息并使其发挥最大效益,是急需解决的一个技术问题,而数据挖掘是对海量数据进行处理的最为有效的先进技术。

1概述

农业是国民经济的基础,水利是农业的命脉。水资源是国家的基础自然资源和重要战略资源,水利已成为整个国民经济的命脉,党的十六大报告继续将水利放在国民经济基础设施建设的首位,强调必须大力实施科教兴国战略和可持续发展战略,加强基础研究和高技术研究,推进关键技术创新和系统集成,实现技术跨越式发展。水利部党组提出的工程水利向资源水利、传统水利向现代水利、可持续发展水利转变的新的治水思路,对水利科技发展,对利用高新技术改造水利传统行业,依靠科技创新和技术进步,推动水利现代化提出了新的、更高的要求。我国水资源在时空上分布不均,水土矛盾十分突出,主要矛盾为资源性缺水和工程性缺水。随着国民经济和社会的发展,各行各业需水不断增加,干旱缺水及农业灌溉技术落后已成为农业可持续发展的主要制约因数之一。当前农业用水供需矛盾的解决,主要出路在于节水,实现灌溉用水从粗放型向节约型转变。下面以大水节水增效示范区工程为例来说明怎样解决缺水的主要矛盾,即推广节水灌溉技术,挖掘水资源潜力。

2数据来源与研究方法

2.1数据来源

本文选用《国家重点监控用水单位名录(第一批)》(以下简称《名录》)中各单位实际用水数据进行数据挖掘。《名录》基于水利部发布的《关于加强重点监控用水单位监督管理工作的通知》,该通知于2016年发布,2017年末获得首批数据,实际取得713家单位的用水数据。数据集包含各单位的2016年实际用水量(WUact16)、2016年预计用水量(WUpre16)以及2017年预计用水量(WUpre17),数据总量共计26.02万条,2017年及以后数据的收集受机构改革影响而暂缓。《名录》中单位行业划分参考《国民经济行业分类》(GB/T4754—2017)中的二级行业分类。《名录》中单位行业类型齐全,电力、石化、钢铁、煤炭等高耗水行业的单位数量较为丰富,在地域分布上与我国地方发展水平大体吻合,因此可以认为该数据在行业和空间分布上有很强的代表性。本文选用此数据能够从水资源需求取向入手,站在企事业单位的微观层面,提取用水特征,从而区分不同用水模式,为差异化节水管理提供科学依据。

2.2数据挖掘的方法

数据挖掘方法包括分类、聚类、模式识别、可视化、人工神经网络、规则推导、决策树、粗集方法、遗传算法等。人工神经网络是将每一个连接看做一个处理单元,试图模拟人脑神经元的功能。规则推导技术用于在大型数据库或数据仓库中搜索和挖掘以往不知道的规则和规律,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,它大致包括关联规则、顺序规则、相似时间序列、IF-THEN规则、转移规则。决策树是一个类似于流程图的树结构,其中的每个内部节点表示在某个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布,根据训练数据集中数据的不同取值建立树的分支,形成一棵决策树,在对其进行反复修剪后转化为规则,该方法可用于对新数据分类。粗集方法是利用粗集理论对数据进行客观而有效的处理,从而迅速地获得知识,它能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。遗传算法是近几年发展起来的一种崭新的全局优化算法,它借用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,增强对各个个体的适应性,能够解决许多其他技术难以解决的问题,在数据挖掘应用领域中,目前主要用于增强其他数据挖掘技术的效果。

3结果与讨论

3.1特征选择

将特征集输入,用水类型划分为5类,即k=5时满足Ak()最小,以随机抽取10%的训练集作为测试样本,测试的分类结果与训练集的分类结果不同(混淆矩阵中非对角线上的值)计为分类错误,经过多次测试,分类错误率趋于0.1267,验证了该方法在本文数据集上的可用性。

3.2分析讨论

用水特征上,全国大多数城市的用水单位节水现状较好,有一定的预期节水意愿,波动特征大体呈现由东南沿海向内地增加的趋势,可能与各地水资源禀赋和降水模式有关。用水模式上,绝大多数单位的用水模式属于波动收缩型,其次为波动扩张型与均衡扩张型。从行业分布来看,波动收缩型主要涵盖产能过剩的钢铁、化工、石化、金属等高耗水行业,均衡扩张型与波动扩张型多为高新科技与服务业。在地域分布上,由于《名录》本身在农业、服务业的单位数量分布相对较少,因而全国各地的用水模式构成较为单一,没有明显的分布规律。产业结构上,农业的用水模式为集中稳定型,工业的用水模式有其他4种用水类型,但主要的用水类型是波动收缩型,服务业的用水模式为波动扩张型。随着我国经济发展和产业结构升级,用水模式结构势必会随之变化。但由于首批获得的用水数据在行业分布、数据维度和时间跨度上都不够丰富,算法本身只能得到一个局部最优解而导致数据挖掘的结果具有一定的局限性。因此希望后续研究能够在算法选择和数据丰富度方面加以改进,得到更多维度的用水特征,刻画出更为完善的用水模式,建立起行业、产业结构与用水模式之间更为稳定的映射关系,探究各行业用水模式发展变化趋势,据此来判断各单位在所在行业中用水模式的相对位置,评价各省市用水模式的相对优劣,并提出针对性的奖罚措施,为差异化节水管理提供科学依据。

结语

应用筛选出的用水特征,采用k-means算法进行用水模式分异,将各单位划分成均衡扩张型、均衡紧缩型、集中稳定型、波动收缩型和波动扩张型5种用水模式。其中波动收缩型在全国的分布数量最高,除个别行业以外,该用水模式涵盖了大多数产能过剩的高耗水行业,而波动扩张型与均衡扩张型则涵盖了大部分高新科技与服务业。产业结构上,农业的用水模式为集中稳定型,工业拥有其他4种用水类型,服务业的用水模式为波动扩张型。

参考文献:

[1]李慧,丁跃元,李原园,等.新形势下我国节水现状及问题分析[J].南水北调与水利科技,2019,17(1):202-208.

[2]李原园,曹建廷,黄火键,等.国际上水资源综合管理进展[J].水科学进展,2018,29(1):127-137.

标签:;  ;  ;  

数据挖掘技术在节水管理中的应用
下载Doc文档

猜你喜欢