基于聚类算法的供水管网爆管识别技术

爆管是一个困扰供水行业的典型问题,其往往伴随着短时的大水量漏失,不仅造成水资源的严重浪费,同时导致的压力下降也会影响正常供水。更有研究与实践经验表明,爆管能够造成水质恶化,城市中发生的严重爆管事故甚至会引发道路积水、交通中断、地面塌陷等次生灾害。因此,如何及时发现管网中的爆管事故,对于快速响应和减小其影响具有重要意义。

近年来,数据采集与监视控制(SCADA)系统已广泛应用于城市供水管网中,分区计量(DMA)也越来越受到重视,供水企业逐渐积累了大量的在线监测数据。因此,基于数据挖掘的爆管识别方法开始得到关注与研究。来自于清华大学环境学院的研究人员利用流量监测数据,探索了基于数据挖掘的爆管识别方法,并在中国绍兴供水管网的DMA上的成功应用。

研究中选取了一个具有两个进水口和三个出水口的DMA,图1A和图1C分别表示DMA五个流量计一天内的流量数据,前者由于受到该DMA下游区域管网冲洗的影响,在夜间有一次水量突增的情况(图1B所示);后者则包含了一次DMA内发生的真实爆管事故,与管网清洗不同,真实爆管引起的每个流量计的变化不尽相同,入口处的流量数值增加明显,而出口处的流量数值甚至出现了减小的情况(图1D所示)。

图1 DMA流量数据特征

从图1中可以看出,1)DMA中各个流量计的读数在时间上有一定的波动性,每个流量数据在一天内的波动较大;2)各个流量计的数据表现出一定的协同性,出口流量计和入口流量计的波动趋势一致;3)爆管和管线冲洗作业都会导致流量计读数突变;4)早上和晚上出现两个用水高峰,而在深夜和凌晨出现了用水低谷,该波动很可能掩盖由爆管引起的流量异常;5)不同的工况会引起DMA进出口流量计不同的波动变化。

表1总结了包含管网冲洗与爆管在内的各种引起DMA流量波动的原因。

表1  异常情况导致的流量波动特征

通过上述分析可以得知,利用多个相关联流量计的读数变化特征,可能实现对爆管事件的识别。主要通过以下3个步骤实现:1)通过数据转换减小数据波动,为爆管识别创造便利;2)检测出所有流量数据的异常波动;3)在所有异常数据中识别出爆管事件。

为了完成第一个步骤,研究人员把来自不同流量计的数据转化成了矩阵。原始的时间序列数据表示流量随时间的变化,如果数据采集频率为5分钟,则前一数据即代表5分钟前的数据,相邻时间的数据差异可能较大,从而掩盖爆管等异常工况引起的读数波动,不利于实现爆管预警。研究人员发现,每日同一时间点的数据间差异性较小。因此,对原始的时间序列进行切分,构成切分序列,每个序列代表每天同一时刻的数据,若以5min为采集频率,每个流量计都可以生成288段切分序列,切分序列的数据波动范围明显降低。为了把所有流量计的数据关联起来,将来自不同流量计相同时段的切分序列进行组合,构成288个矩阵。

那么如何去检测矩阵中的异常数据呢?在未发生任何事故的情况下,矩阵中每个向量间具有较大的相似度,一旦出现了异常工况(可能是真实爆管,也可能是冲洗作业等),表征异常工况的向量会因为流量数据的增加或减小而与其他向量产生较大差异。基于此,研究人员采用聚类算法来衡量矩阵中向量间的相似度,并依此进行聚类分析,实现对异常向量的识别。

最后,需要在所有异常向量中识别出真正的爆管事件。记异常向量x = (x1, x2, …, xn),计算其原所在矩阵中的均值向量为mean= (m1, m2, …, mn),此均值向量的各个元素都由相应列的均值构成。分析x中的各个元素,以其中较大元素(相较于平均值而言)的个数为标准,将其分为三类(大、小和中等),分别与表1中不同原因(1,2,3)相对应,如表2所示。该步骤通过对异常向量进行分类,可以有效降低最终的误报率。

表2 异常向量的分类 ; 其中阿拉伯数字指表1中的各类原因, n代表流量计的个数

图2显示了对某一时刻相应矩阵进行聚类分析后的结果。图2B是进行聚类后得到的决策图,描述了所有向量的局部密度(表征本向量周边向量的密集程度)和距离(本向量与具有更高局部密度的向量间的最小距离),星状点是聚类中心,蓝色圆点是正常向量的代表,左上角椭圆区域内的点具有最低的密度,且具有较大距离,因此被识别为异常向量。图2A描绘了5支流量计180天中在某时刻的流量变化曲线,其中方形异常向量是由于10月9日区域下游管道冲洗造成的,所有流量计读数有明显增加;而三角形点代表的异常向量是由于7月27日的爆管造成的,发现出口流量计读数无明显变化甚至降低,而入口流量读数则明显增加。研究表明,该方法能够快速检测出流量为200m3/h(约占DMA瞬时入流量的13%左右)的爆管事件。

图2 某矩阵的聚类结果

目前,供水管网在线监测数据日趋丰富,如何有效挖掘出在线监测数据中蕴含的信息,支撑管网的科学管理,是供水行业面临的一个挑战。该研究提出的方法,可利用DMA的在线监测数据实现对爆管事件的实时甄别,对于降低管网漏失量,提高管网管理水平,具有较大意义。

参考文献

Wu, Y., Liu, S., Wu, X., Liu, Y. and Guan, Y., 2016.Burst detection in district metering areas using a data driven clusteringalgorithm. Water Research, 100, 28-37.

(0)

相关推荐

  • 宏电多款感知监测新品亮相第三届给排水管网管理与运维大会

    2021年4月27-28日,由中国城市规划协会地下管线专业委员会.智慧水务产业技术创新战略联盟联合举办的"第三届给排水管网管理与运维大会"在广州隆重举办. 大会以"守护城 ...

  • AIops | 一文了解日志异常检测

    背景介绍 日志是有关系统运行状态的描述,例如Linux的系统日志,数据库系统的日志以及分布式系统的日志等.日志是运维人员查看系统运行状态,寻找系统故障的重要数据.另一方面,日志属于非结构化数据,兼具有 ...

  • 图像处理中的经典机器学习方法

    程序员书屋2021-01-24 14:28:37 在本章中,我们将讨论机器学习技术在图像处理中的应用.首先,定义机器学习,并学习它的两种算法--监督算法和无监督算法:其次,讨论一些流行的无监督机器学习 ...

  • 漫谈图神经网络 (三)

    >> 图读出操作(ReadOut) 图读出操作,顾名思义,就是用来生成图表示的.它的别名有图粗化(翻译捉急,Graph Coarsening)/图池化(Graph Pooling).对于这 ...

  • 基于K-Means聚类算法的主颜色提取

    重磅干货,第一时间送达 01.简介 本期我们将一起实现基于K-Means聚类算法的主色提取.在深入研究代码之前,让我们先了解一下K-Means算法的背景知识. 02.K均值类聚算法 K-Means算法 ...

  • Crawler/ML:爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类

    Crawler/ML:爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类 网上教程太 ...

  • 【最新成果】基于智能算法的超材料快速优化设计方法研究进展

    超材料是由亚波长单元结构按照周期性或准周期性等特定的空间分布序列构成的人工复合材料或结构,可对电磁波的幅值.相位.极化等特性进行灵活调控.作为调控电磁波的重要手段之一,超材料在通信.隐身.电子对抗等领 ...

  • 【機器學習】聚类算法使用小结

    聚类算法使用小结 k-means 原理 优点 缺点 sklearn 调参 凝聚聚类 原理 优点 缺点 DBSCAN 原理 优点 缺点 sklearn 调参 高斯混合聚类 原理 优点 缺点 MeanSh ...

  • 一个完整的K-means聚类算法指南!

    来源:海豚数据科学实验室 著作权归作者所有,本文仅作学术分享,若侵权,请联系后台删文处理 假设您想根据内容和主题对数百(或数千)个文档进行分类,或者您希望出于某种原因将不同的图像组合在一起.或者更重要 ...

  • 基于Mean-shift算法跟踪对象

    重磅干货,第一时间送达 跟踪对象是计算机视觉领域的重要应用.这在监控系统.国防.自动驾驶汽车等方面都有用例.在本文中,我们将讨论一种称为均值漂移算法的基本跟踪算法,并将通过在视频中跟踪汽车来了解其应用 ...

  • 基于BP算法的减弱复杂电磁环境对炮兵侦察影响的研究(中国知网 炮兵侦察)

    解放军炮兵学院五系四十三队 摘    要: 从剖析实战面临的复杂电磁环境的特点以及对炮兵作战的影响入手, 提出运用BP算法的收敛性, 对不同的侦察工具的信息可信度确立合适的权值, 消除由于复杂电磁环境 ...

  • spectral-cluster聚类算法详解

    spectral clustering,称之为谱聚类算法,和近邻传播AP算法一样,也是基于图论的算法,都是将样本点两两相连,构成图这一数据结构,不同的是,谱聚类是通过切图的方式来划分不同的cluste ...

  • 到底什么是谱聚类算法?

    谱聚类算法是目前最流行的聚类算法之一,其性能及适用场景优于传统的聚类算法如k-均值算法. 本文对谱聚类算法进行了详细总结,内容主要参考以下论文,若对谱聚类算法有不理解的地方,欢迎交流. 论文名称: & ...