数据清洗在新能源功率预测中的研究综述和展望 / 开普饭

新能源功率预测是提高新能源场站控制，保障高比率新能源发电接入电网安全稳定运行的关键技术。目前，由于通信故障、设备异常、人为限电等不确定性问题，导致新能源场站的实测数据中含有高比例异常数据，进而降低了功率预测的精度。有效的数据清洗可以提高数据质量，使新能源功率预测结果更加精确。

福州大学电气工程与自动化学院、福建省电器智能化工程技术研究中心、福建省莆田供电公司、福建莆田荔源集团的研究人员武佳卉、邵振国、杨少华、肖颂勇、吴国昌，在2020年第11期《电气技术》杂志上撰文，首先概述了数据清洗的主流方法；然后对异常数据进行详细分类，从异常值剔除和缺失值重构两个方面重点阐述和分析了现有数据清洗方法的基本思路、应用条件以及优缺点；最后指出了未来数据清洗中值得关注的问题和方向。

随着全球经济的快速发展，能源的需求量逐年递增。面对不可再生能源枯竭和全球环境污染问题，新能源以其安全性、环保性和可再生性等优势在世界范围内得到了高度重视和广泛应用，并呈现出良好的发展前景。

据统计，在2019年第一季度，我国新增风电装机容量478万kW，累计并网装机容量达到1.89亿kW，全国风电发电量1041亿kW·h，同比增长6.3%；新增光伏装机容量478万kW，累计并网装机容量达到1.797亿kW，全国光伏发电量440亿kW·h，同比增长26%。

然而，由于新能源发电的随机性和不确定性，新能源大规模并网后对电力系统的稳定运行造成了巨大的挑战。提前对新能源进行发电功率预测，能够协助调度部门调整运行方式，进而保证电网的安全和稳定。近十年来，国内外许多学者都致力于研究新能源的功率预测方法，并取得了丰富的成果。

进行新能源功率预测时，需要对从新能源场站收集到的海量原始数据进行挖掘。然而，由于电场运行时机组弃风、弃光、检修、极端天气情况、外界电磁干扰或设备故障等原因，导致原始数据中存在大量不完整的数据和异常的数据。这些不良数据严重影响预测模型的参数估计，造成预测精度低、预测偏差大等后果。因此在功率预测前，有必要进行有效的数据清洗处理。

目前针对新能源功率预测的数据预处理方面的综述较少，因此有必要对新能源功率预测背景下的数据清洗方法进行综述和展望。本文从异常值剔除和缺失值重构两个方面，详细地阐述、分析和归纳了新能源异常数据的类别和清洗方法。最后对数据清洗在新能源功率预测中需要进一步研究的方向进行了展望。

1 考虑数据清洗的新能源功率预测

精确的功率预测有利于调度部门的决策，可以提高新能源场站的控制性能，进而减少弃风、弃光所导致的发电损失，解决供需不平衡所带来的系统稳定性问题，增强新能源场站的市场竞争力。然而，精准的功率预测依赖于准确的测量数据，因此有效的数据清洗是新能源功率预测必不可少的步骤。

新能源功率预测时所用到的数据有数值天气预报（numerical weather prediction, NWP）数据、新能源运行实测数据和新能源地理信息数据等。

当下学者主要以预测变量和被预测量为数据清洗对象。其中，预测变量可以为风速、辐照度等，被预测量一般为新能源机组输出功率。图1所示为采用文献计量分析法得出的数据清洗方法分类示意图。

图1 数据清洗方法分类

2 异常值剔除

2.1 功率曲线中异常数据的分类

功率曲线是新能源发电的预测变量与被预测量之间的关系曲线。学者们根据异常数据的分布特征，把出现频率高的异常数据类型分成了4类。以风速-风机功率散点图为例，采用比恩法绘制风电功率曲线图，4类异常数据的分布如图2所示。

1）类型1：曲线上方的堆积型异常数据，通常是由于传感器失灵、通信或测量设备故障导致的。

图2 异常数据的分布

2）类型2：曲线中部的堆积型异常数据，通常是由限电或通信故障造成的。

3）类型3：曲线周围的分散型异常数据，通常是由于气象波动、信号传播噪声等随机情况造成的。

4）类型4：曲线下方的堆积型异常数据，通常是机组故障、停机检修造成的。

2.2 异常值剔除方法

1）统计量分析法

采用统计量分析的方法，重点在于对变量做描述性统计，从而查看哪些数据是不合理的。常用的方法为利用最大值和最小值判断新能源功率和预测变量的取值是否超出范围。若检测到功率小于等于零的数据则进行剔除，实现数据的清洗整定。统计量分析方法可以简单有效地完成对新能源数据的检查，适合处理不在有效数据范围内的堆积型数据，但是不适用于处理大量的分散型异常数据。

2）3sigma法

3sigma法又称为拉依达准则。如果数据服从正态分布，分布在（-3,  +3）中的数据的概率为99.73%，而分布在距离平均值3之外的数据的概率不到0.3%，属于极小概率事件，其中为标准差，为平均值。因此在3原则下，将超过3倍的标准差的数据值视为异常值。

然而，实际新能源的发电数据往往并不严格服从正态分布，且由于堆积型异常数据的影响，导致识别出的异常值个数少于实际异常值个数。因此，将这种方法用于非正态分布数据的异常值识别时，其有效性有限。

3）小波奇异点检测法

新能源异常数据可以看成是功率曲线中的奇异点。使用小波变换可以处理非平稳信号，并从非平稳信号中精确辨识出奇异点的位置。通常来说，对奇异点位置的辨识依赖于小波变换系数正负模极大值线在低尺度上的交点。正负模极大值线可以延伸至尺度接近零处，保证两曲线相交，从而找到奇异点的位置，之后再对其进行修正。

但是由于新能源发电功率有波动性，即使是正常的数据在小波变换之后也可能会存在奇异点，所以判断出奇异点后还应区分正常的奇异点和错误奇异点。此外，在实际应用中，选取合适的小波函数是使正负模极大值线能相交于一点的关键，否则将无法识别出奇异点的位置。

4）四分位算法

5）支持向量机回归算法

支持向量机回归算法（support vector machine regression, SVMR）的核心是用函数拟合数据，在数据中含有大量异常值的情况下，曲线在回归估计过程中会因趋近异常数据而发生畸变，从而造成回归曲线的拟合效果不理想。

在SVMR算法的结构风险函数中加入不敏感损失函数，可以控制异常数据对回归模型的影响，从整体上考虑回归曲线的平滑性。这使异常数据与回归值之间的残差十分显著，从而更容易将异常数据进行分离。

6）K最近邻聚类算法

K最近邻（K-nearest neighbor, KNN）算法在分类上根据最邻近的一个或几个数据的类别决定该数据的类别。借助距离参数表征数据的偏离程度，可以对异常数据进行检测并剔除。常用的距离有欧氏距离和马氏距离。当某数据点与其他数据点的距离都大于一个阈值时，就被判定为异常数据。该方法简单易懂，但是在训练历史数据构建数学模型时学习速度较慢，泛化能力较差，且需要大量的数据进行训练，否则训练误差会较大。

7）组内最优方差法

在使用组内最优方差法（optimal interclass variance, OIV）时，首先要设置一个初始方差阈值S，然后将预测变量划分成n个区间，区间划分的间隔通常取0.5个单位的预测变量，例如将风速区间间隔定为0.5m/s。再根据初始阈值S将每一个区间里的异常数据和正常数据进行区分，最后对所有区间的数据进行归纳，从而找出所有的异常数据。

采用OIV进行新能源功率曲线分析时，可以快速准确地清洗数据。与其他学习算法相比，此方法不需要历史数据集进行训练便可以识别出发电性能偏低的数据簇，且处理速度快，操作过程简便，通用性强。但是此方法需要人工反复试探才能确定阈值。

8）基于密度的离群点检测算法

离群点检测算法（local outlier factor, LOF）通过聚类的方法识别离群点。由聚类生成的一组数据对象集合称为簇，同一簇中数据对象周围的密度与其邻域周围的密度相似，而落在簇集合之外的数值则称为离群点。所以离群点周围的密度与其邻域周围的密度明显不同，将离群点删除就能实现异常数据的剔除。

LOF算法可以有效实现对分散性数据的识别，但是识别密度较高的堆积型数据能力较差，而且LOF的阈值设置有一定的难度，要根据经验或者多次尝试才能达到理想效果。

9）组合模型清洗法

仅仅使用单个数学方法或者人工智能算法进行异常数据清洗存在着一定的局限性。为了弥补单个算法的不足，有学者提出一种四分位法和聚类分析的组合模型用于识别异常数据。组合模型在使用时，四分位法用于剔除分散型异常数据，而聚类法用于剔除堆积型异常数据。有学者提出使用四分位法与变点分组法的组合模型对异常数据进行识别并清洗。

以上的方法都可以改进使用单一四分位法时识别堆积型异常数据较差这一局限。

当只是针对数据本身进行清洗时，虽然具有普遍性，但是没有考虑新能源场站的物理特性，导致异常数据的识别效果变差甚至会误删正常数据。为了解决这个问题，在清洗数据时可以将新能源出力之间的相关性和自身出力特性考虑进去，识别效果会明显提高。

2.3 仿真测试

以福建某风电场为例，该风电场有24台额定功率为2MW的风电机组。风电机组的切入风速为3m/s，额定风速为15m/s，切出风速为25m/s。风电场风速采集时间间隔为10min，采集时间为2015年2月1日00:00至2015年7月31日24:00。风速-功率散点图如图3所示。其中原始数据中有12%的异常数据。

图3 风速-功率散点图

分别采用数学方法中的四分位法、人工智能算法中的SVMR法和四分位-SVMR的组合算法对异常值进行剔除。结果显示四分位法只剔除了6.65%的异常值，SVMR剔除了7.99%的异常值，而组合模型法的剔除率达到了10.2%。由此证明使用单一的清洗方法有一定的局限性，组合模型法可以将算法的优势进行互补，进而实现较好的清洗效果。

3 缺失值重构

在异常数据占比较高的情况下，数据清洗过程中的异常值剔除量将随之变高，进而破坏了原始数据的完整性和充裕度。这不仅会影响新能源功率的预测模型，而且不利于数据再利用。通过对被剔除数据进行重构，能够保持数据的完整性和有效性。

采用文献计量分析方法得出主流的缺失值重构方法有：①基于统计学的重构方法；②基于机器学习的重构方法；③基于物理特性的重构方法。

3.1 基于统计学的重构方法

基于统计学的重构方法有均值重构法、多项式拟合法、级比生成法、三次样条插值法和递推式非邻均值补全法等。其中最常用的为三次样条插值法。

三次样条插值函数一般会使用三弯矩插值法去构造。当连续的异常数据点少于等于5时可以直接利用三次样条插值函数对数据进行重构；当大于5时，则需用改进的多点三次样条采样法进行重构。基于统计学的重构方法较为简便快速，但是重构的数据偏差较大，且忽略了新能源数据的时序信息。

3.2 基于机器学习的重构方法

常用的基于机器学习的重构方法有KNN、回归算法、期望最大化算法（expectation-maximization, EM）等。其中KNN根据欧式距离用于确定缺失数据样本周围最近的K个样本，将K个值加权平均用于估计缺失值；回归算法根据数据集建立回归方程，将缺失值的已知属性带入方程去估计缺失值；EM假设模型对于完整样本是正确的，通过观察数据的边际分布进而对缺失值进行极大似然估计。

这些算法都是根据已有数据建立相应模型，然后使用模型来估计该样本的缺失数据，应用较为普遍但却未考虑相邻数据间的时序信息。

自回归滑动平均模型（auto regressive moving average, ARMA）弥补了这个缺点，此算法将预测指标随时间推移形成的数据序列看作是一个随机序列，这组随机变量所具有的依存关系体现着原始数据在时间上的延续性，从而用于缺失数据的插补。

3.3 基于物理特性的重构方法

目前新能源场站都是大规模集中开发，每个电场附近都会有许多相邻的风电场，因此新能源的出力会有一定的相关性。有学者利用相邻电场的功率比值时间序列有一定程度的模式性重构数据，有学者利用出力的延时相关性重构数据，这两种方法都充分利用了新能源出力的物理特性，实现通过已知的新能源场站输出功率求得待重构电场的输出功率，能有效改善数据重构效果。

由于目前有关风电数据重构的研究较少，且缺失数据重构的评定方法没有一个量化的标准，本次研究将不对缺失值的重构方法进行仿真分析。用于判断重构数据的成功率和准确率的评定技术有待进一步研究。

4 展望

新能源发电机组中的异常数据会导致功率预测的精度降低，有效的数据清洗可以提高数据的质量，提升新能源功率预测结果的准确性。当前学者在新能源功率预测数据清洗领域的研究虽已展开但不完善，因此对数据清洗的研究需要更加深入。

以下几点问题需要进一步研究：

1）在结合几种清洗方法同时处理数据时，方法的优势可能会互补，也可能抵消。即使有时互补的方法在使用顺序不同时可能带来不同的清洗效果。未来可以探究多种方法的组合方式及使用顺序对数据清洗结果的影响。

2）当前学者们在数据清洗领域的研究主要分为异常值剔除和缺失值重构两部分，范围较窄。未来考虑将数据清洗概念进行扩展，比如当采样数据未保持时间同步时，考虑将这些数据进行时刻纠偏，而不是直接剔除再重构，其中时刻纠偏也应属于数据清洗的范畴。

3）现有文献中对新能源的数据清洗和接下来功率预测的建模都进行了分离，未来可以考虑融合这两个环节，形成清洗-建模-清洗的闭环结构。

4）功率预测前除了要对新能源的运行数据进行清洗以外，还需要考虑气象数据、地理因素数据的清洗，这些数据也会因为种种原因变得异常或缺失。因此未来还需加强气象数据、地理因素数据的清洗。

5）除了经典的数据分类外，还可以针对诸如气象、地理因素等异常数据所产生的出力偏差倾向进行挖掘、归纳、推理和建模，从而达到根据出力偏差反推异常数据类型的目的。未来可以探索这种偏差识别和异常数据挖掘技术。

6）经过多年的积累，我国已经有自主研发的功率预测系统，比如FR3000F、WPPS和SPWF-3000等。开发针对新能源功率预测的数据清洗系统将成为未来的发展目标，这样的系统可以高效且强通用性地对数据进行预处理，为功率预测提供坚强的数据支撑。

5 结论

本文结合国内外最新文献，从异常值剔除和缺失值重构两个角度，总结了当前主流数据清洗方法的优缺点。最后针对数据清洗在新能源功率预测中存在的不足，阐述了数据清洗研究的关键性问题，并对未来的研究方向进行了展望。

数据清洗在新能源功率预测中的研究综述和展望

相关推荐