【学术论文】基于密度聚类的能耗数据采集网关设计
摘要:
现有用电信息采集网络集中器不具备对异常用电量进行检测功能,导致主站对异常用电行为分析与响应滞后。设计一款具备异常检测功能的用电信息采集网关,将网关安装在集中器侧对集中器能耗数据进行异常分析是应对该问题的有效解决方案。根据用电信息采集网络的特征和相关电网规约,网关通过构造数据帧查询主站地址池配置自身地址;基于密度聚类DBSCAN算法和决策树C4.5算法对异常用电行为进行判断。实验结果表明,该网关能够快速地对自身地址进行配置并对能耗数据进行异常分析。
0 引言
随着网络技术的进步与发展,将无线抄表系统应用于电力行业已然成为一种趋势[1]。集中器作为用电信息采集系统中的重要节点,是实现主站与采集节点的通信桥梁[2]。集中器作为中介转发设备,缺乏对用电数据进行分析的能力,导致主站对用电行为分析和响应的滞后[3]。为了能够在用户侧实现对能耗采集数据的分析与处理,采用该网关对集中器进行接入管理,获取各集中器的能耗数据并进行分类存储与分析,以解决主站对异常用电滞后的问题。
目前,诸多学者针对用电信息采集系统及异常能耗数据分析提出了多种解决方案。文献[3]通过构造关联规则,提出了一种基于密度聚类DBSCAN算法,用于识别离群点的用电模式。文献[4]通过软、硬件的协同配合,实现了集中器与控制终端和远程管理中心快速、可靠的通信。文献[5]中的用电信息采集系统侧重于需求管理和响应,分析了用户用电行为。文献[6]基于实时性方面的考虑,提出了一种层次化的异常事件检测系统。以上研究对用电信息采集系统的发展做出了积极贡献。
为解决主站对用电数据分析滞后的问题,本文研究了网关接入用电信息采集系统时获取地址的过程;网关接入用电信息采集网络后,读入集中器能耗数据并进行分类存储,采用密度聚类DBSCAN算法[7-8]得出离群点集合,并通过决策树C4.5算法[9-10]得出离群点数据对应的用电行为。
1 网关获取节点地址
网关与主站通信在应用层应满足376.1电网规约[11],该规约对数据域地址进行规定,其地址由3部分组成:2 B行政区划码A1、2 B终端地址A2和1 B主站地址和组地址标志A3。
网关接入用电信息采集网络,获取节点地址的流程如下:网关通过构建数据帧,向主站发送地址查询命令,获取地址A,其由2 B的行政区划码A1和2 B的终端地址A2构成,地址格式如图1所示。
网关与主站进行通信的过程中,主站根据网关节点地址构建数据帧地址域,包括地址段A1、A2和A3。在单播情况下,A1、A2直接从目标集中器地址A中获取,A3为主站地址和组地址标志。A3的D0位为终端组地址标志,D0为0时表示终端地址A2为单地址;D0为1时表示终端地址A2为组地址;A3的D1~D7组成0~127个主站地址MSA,其中数据帧地址域格式如图2所示。
2 网关关键软硬件设计
网关基于ARM11和Linux操作系统[12]进行设计,采用轻量级的SQLite3数据库对相关能耗数据及用户信息进行存储。对用电信息采集数据进行分析需要基于一定规模的历史数据,考虑到存储容量、网关规格和成本等因素,采用SD卡进行内存扩展。选取BOA服务器作为网关的Web服务器程序,在网关上实现简单的网页查看功能。
2.1 外扩存储模块设计
在网关上实现对用电信息采集数据的分析,需要基于一定的历史数据,网关需要存储一定数量的数据,而网关自身内存有限,所以需要扩大用电信息采集网关的存储能力,SD卡与S3C6410中的SDIO0接口的原理图如图3所示。
2.2 SQLite3数据库的设计
SQLite3是一个嵌入式数据库,其存储后端采用Btree实现。SQLite在硬盘上一个数据库一个文件,每个数据库文件头部保存有这个数据库的元信息,包括版本、大小、Btree根节点位置等。
数据库可以高效、安全、大批量地对数据进行管理,将SQLite3数据库移植到本网关中以实现对能耗数据的分析。根据用电异常量分析算法对数据类型的需求进行存储,包括能耗类型、相对频率、用户类型、环境温度等。
2.3 BOA服务器程序的设计
本网关采用BOA服务器Web程序搭载后台管理界面,前端界面采用AJAX技术与服务器中的CGI程序进行交互,后台管理网页设计架构如图4所示。
用电信息采集网关Web网页中的主要功能包括以下3个方面:
(1)查询能耗信息:通过曲线对能耗信息进行显示,可以查看用户时、日、月的用电信息等情况。
(2)查看网关状态:主要显示当前数据库的可用空间、与服务器间的通信状况及接入的集中器信息。
(3)查看能耗数据分析:可查看历史能耗信息及异常情况下的数据情况。
3 用电信息异常分析算法
3.1 密度聚类算法
网关将集中器上传的能耗数据进行备份,以进行及时分析。对用电时段进行划分,将工作日划分为黑、白两个时段,将周末划分为早、中、晚3个时段,各时段的时间跨度可根据用户类型及其生活作息习惯进行调整。在相同日期类型和时间段内,人们的用电行为比较类似,用电数据具有较小的波动性,采用密度聚类DBSCAN算法获取异常用电数据。
3.2 异常量的获取
将不同日期类型和时间段的数据作为一个能耗数据单元,针对不同的数据单元采用不同的参数Eps和MinPts。参数的选择效率直接决定了该网关的质量,采用文献[13]提出的根据KNN分布算法与数学统计分析使网关自行计算各个数据单元中参数Eps与MinPts的值。
3.3 异常量分析
以一定周期对用电数据进行采集,同时采集温度、日期类型和用电状态(是否有异常,是何种异常),并将采集的数据存放在data.db文件中。采用决策树C4.5算法对历史数据及对应的用电行为进行训练。调入通过DBSCAN算法获取的各个数据单元的噪声点集合
根据决策树C4.5算法得出各噪声点所对应的异常用电行为,并通过相应的机制采取对应的措施。然后根据实际调查验证通过决策树C4.5算法得出的结论是否正确,如果不正确将实际用电行为替代判断用电行为。
4 测试与分析
4.1 实验平台的搭建
搭建测试环境,所需设备与模块如表1所示。
采用2个集中器分别与16个采集节点通过470 MHz构建无线抄表网络,网关通过交换机与集中器和主站(笔记本电脑)相连,集中器通过交换机接入网关。一个集中器采集子网放置在距离网关较近的地方,另一个集中器采集子网放置在较远的地方,并且将两个集中器采集子网设置为不同的通信信道,将一个子网内节点的信道设置为9,另一个子网内节点的信道设置为14,以防止采集节点之间的相互干扰。
4.2 网关获取地址的验证
网关上电后,向主站发送地址查询主站的行政区划码A1和管理的网关数量配置自身地址,通过串口调试助手打印网关地址信息。打印结果为00000001,前两个字节为行政区划码A1,与主站保持一致;由于在网关接入主站时主站仅有网关这一个节点,因此终端地址A2为0001,其打印信息如图5所示。
4.3 异常分析模块的验证
将用电数据进行分段,并归一化至温度为25 ℃的情况下,通过KNN分布算法和数据统计算法实现对参数Eps与MinPts的自行计算,提高了网关的运行效率。
根据不同日期类型和用户的用电习惯将一天的用电数据进行分段划分,分别对工作日和周末的不同时间段的用电数据进行聚类,并将节假日通过节假日因子归并为周末进行聚类,采用DBSCAN算法能够准确判断新读入的用电信息是否为噪声点。通过决策树C4.5算法对历史数据分时段和日期类型进行训练,能够准确判定噪声点的异常用电行为。
以工作日、周末和节假日对用电日期进行归类,并将节假日归并为周末,使得在各自的用电类别中人们的用电习惯具有较高的相似性,采用决策树C4.5算法可以得到更为准确的结果。将周末和工作日的用电数据根据人们的用电习惯的不同分为不同的区间单元,使得在各个时段内用电数据波动幅度较小,提高了DBSCAN算法的准确性。
5 结论
本网关结合用电信息采集网络特征,基于相关电网规约构造数据查询帧,配置网关自身地址,实现网关对集中器的接入管理。通过对外扩存储拓展程序、SQLite3数据库程序、BOA服务器程序的设计和移植以及异常检测单元块的设计,完成网关在数据存储和异常检测功能。本文所采用的查询主站地址池方法可以高效地配置网关自身地址;网关采用SQLite3数据库实现对能耗数据的有效存储,通过采用DBSCAN算法和决策树C4.5算法实现对采集数据的异常用电行为的判断,解决了主站对能耗数据分析滞后的问题。
参考文献
[1] 孙宏斌,郭庆来,潘昭光.能源互联网:理念、架构与前沿展望[J].电力系统自动化,2015(19):1-8.
[2] 佟为明,张希栋,李中伟,等.基于椭圆曲线密码的数据集中器通信报文混合密码算法[J].电力系统自动化,2014,38(4):86-91.
[3] 田力,向敏.基于密度聚类技术的电力系统用电量异常分析算法[J].电力系统自动化,2017(5):64-70.
[4] 向敏,王时贺,赵星宇.一种基于电力载波通信的路灯控制系统集中器的设计[J].重庆邮电大学学报(自然科学版),2013,25(2):161-165.
[5] GELAZANSKAS L,GAMAGE K A A.Demand side management in smart grid:a review and proposals for future direction[J].Sustainable Cities & Society,2014,11(11):22-30.
[6] LEE S C,NEVATIA R.Hierarchical abnormal event detection by real time and semi-real time multi-tasking video surveillance system[J].Machine Vision & Applications,2014,25(1):133-143.
[7] 韩利钊,钱雪忠,罗靖,等.基于区域划分的DBSCAN多密度聚类算法[J/OL].[2017-06-04].http://www.arocmag.com/article/02-2018-06-047.html.
[8] MALHOTRA A,BAJAJ K.A hybrid pattern based text mining approach for malware detection using DBScan[J].CSI Transactions on ICT,2016,4(2-4):141-149.
[9] 苗煜飞,张霄宏.决策树C4.5算法的优化与应用[J].计算机工程与应用,2015,51(13):255-258.
[10] MANTAS C J,ABELLAN J,CASTELLANO J G. Analysis of Credal-C4.5 for classification in noisy domains[J].Expert Systems with Applications,2016,61:314-326.
[11] Q/GDW 376.1-2013.电力用户用电信息采集系统通信协议[S].北京:国家电网公司,2013.
[12] 刘炜,毛建鑫,梁磊,等.一种基于ARM的集中器的硬件实现[J].电子技术应用,2014,40(1):86-89.
[13] 周治平,王杰锋,朱书伟,等.一种改进的自适应快速AF-DBSCAN聚类算法[J].智能系统学报,2016,11(1):93-98.
作者信息:
王 平,于祥春
(重庆邮电大学 自动化学院,重庆400065)