摘要:相较过去大部分针对专变和公变的窃电检测方法,文中针对群体数量庞大、窃电手段复杂多样的低压用户进行窃电行为的检测分析。首先建立特征工程,然后基于卷积神经网络LeNet-5模型对日用电量数据进行建模分析,筛选出异常用电模式,再采用双层深度网络对用户信息、台区线损、告警信息等数据进行综合分析。通过比对模型输出的分级窃电嫌疑清单,本文方法对各类窃电模式有很好的查准率,为精确抓获窃电奠定了基础。
关键词:窃电行为检测;深度学习;卷积神经网络;全连接网络;窃电嫌疑
窃电问题一直困扰着供电部门。传统窃电排查方法是由供电所防窃电人员人工观察所辖区域的台区线损、用户电量等,根据行业经验和业务规则,确定窃电嫌疑清单,再结合现场摸排来捕捉窃电行为[1-2],有诸多局限性。此外,当前的窃电检测方法主要是采用计量装置防止窃电,缺乏实时监控,检测效果较差[3]。
结合业务规则和机器学习算法,通过对智能电表穿透采集得到的数据进行全面的分析,从中寻找出存在窃电嫌疑的行为模式,成为一种新的方法[4-8]。相较过去针对专变和公变的窃电检测方法,本文主要针对群体数量庞大、窃电手段复杂多样的低压用户,对与窃电相关的因子进行梳理,建立特征工程,对日用电量的时序数据建立5层卷积神经网络(CNN,ConvolutionalNeuralNetworks)模型,筛选出具有异常用电特征的模式,并输出窃电嫌疑,再结合双层全连接网络对用户档案信息、台区线损和异常告警信息进行综合分析建模,按月度输出窃电嫌疑清单[9]。
1特征工程
窃电分类模型以月度为周期,分析每个用户当月的指标数据,评估其窃电嫌疑。通过对业务规则和经验的梳理,将窃电指标分为以下四类:①用电量时序:日均电量、峰电量、谷电量;②用户信息:行业分类(非居民用户)、用电类别、城农网标识、合同容量、台区容量、用户数、历史窃电数;③台区线损:月均线损率、最低线损率、最高线损率、高损天数(线损率大于9%)、月均线损电量、最低线损电量、最高线损电量、线损采集成功率;④异常告警:电能表停走异常、电压断相异常、电流不平衡异常、电能表开盖事件、反向电量异常。其中用电量时序特征数据为每天一项,一个月共31项,其余均为每月一项;位于相同台区的用户其台区线损相同;异常告警是指当前月份过去三个月内的某类异常发生次数;以上指标均为每个人月一条,最终合并为建模数据。
1.1黑白名单构造
实际窃电用户在所有用户中的占比极低,因此窃电行为数据为非平衡集。黑名单可从国网各个网省公司下属的各地区分局获得,其来源是现场人员通过摸排和取证确定的窃电用户。将用户被抓获的当月数据截取为黑名单,其余月份数据则丢弃。这是因为用户可能在被检测到之前的很长时间就开始窃电,而开始窃电的时间在客观上未知的。白名单则难以确认,因为在每次排查后没有记录未窃电的用户,且有的窃电行为具有时效性,没有检测到很可能是用户及时隐藏了窃电证据。因此,白名单只能通过设定一些标准来大致筛选出来,以使得其中的黑名单噪声尽量降低。根据过去经验,线损长期保持高位的台区更有可能存在窃电现象,反之线损健康的区域窃电则较少。参考国家电网对线损异常问题的考核标准,文中将单月每天线损率均小于9%的台区中的用户均划定为白名单。
1.2用电量时序处理
线损指标虽然可以用来大致识别台区的用电健康情况,但是仍然没有办法定位到具体的用户。用电量(包括日峰谷电量)作为用户用电合理或异常的直接指标,对于判断任何方式的窃电都有指导性的作用。以日均用电量为指标观察黑名单用户的用电趋势。在检测窃电前后(受理时间),用电量呈现上升趋势。这是因为在受理时间前后用户从窃电状态向正常用电状态发生了转换,用电量恢复了正常。而研究者希望模型能够在窃电行为一发生就能够检测到异常,即从窃电状态向正常状态转换的各种下降趋势,这里的处理方式是将黑名单的用电时序进行翻转。白名单不具有这种变化趋势,则不需要进行翻转。
2模型构建
2.1整体设计
本文将窃电特征分为两部分,其中用电量时序共包含93个特征,其余部分包含20个特征。对于前者,采用卷积神经网络LeNet-5进行学习,输出0到1之间的窃电嫌疑,然后将该中间值与第二部分的特征合并,再采用双隐含层的全连接网络进行训练,输出最终的窃电嫌疑系数[10]。受到采集终端或传输线路的限制,窃电指标数据中会存在一些漏采或错误的项。同时,白名单中也会不可避免混杂着窃电用户。相比传统机器学习算法,卷积神经网络具有自动提取特征的能力,且对噪声的抗干扰能力也更强,因此对有海量数据的非线性问题具有更强的泛化能力[11]。
2.2卷积神经网络
将采集的电力数据转换成CNN处理的格式。CNN是由美国神经生物学家Hubel和Wiesel首先提出的模仿人类大脑视觉原理的前馈神经网络。它在图像识别方面有着非常广泛的应用,但通过配置,它也能在自然语言处理、时间序列预测方面发挥作用。CNN与普通的全连接网络不同,引入了卷积层和池化层。卷积层用于提取特征,通过权值共享的方式工作,可大大减少全连接网络的权值数量。
卷积层包括若干个卷积核,与输入层局部连接,用于扫描图像或时序,每个卷积核都能从输入中识别出不同角度的特征。池化层相当于滤波器,可对输入进行降采样,保留数据显著特征的同时降低了结果的维度。CNN大大降低了全连接网络的复杂性,因此对于存在位移的高维度时序数据有很高的效率。LeNet-5是由YannLeCun在1998年提出的一种结构简单的CNN,它具有2个卷积层、2个池化层和3个全连接层,可用于高效地解决维度较少的时序预测问题。CNN包括输入层,卷积层,池化层,全连接层和输出层。
3实验与分析
3.1模型配置
本文采用深度学习框架DL4J(DeepLearningforJava)来实现深度学习模型。这是一套基于Java语言的深度学习工具包,可以高效地构建、训练和部署各种深度网络,同时支持GPU和Spark集成[12]。本文的DNN-2模型配置两个隐含层,节点数分别为15和5。输出层节点个数为2,输出值为one-hot形式,两个值分别代表样本归属于正常和窃电类别的概率。LeNet-5的卷积核大小设置为3×1,通道数为3,分别对应日均电量、峰电量、谷电量三个时间序列。
3.2实验结果与分析
实验数据来源于福建省用电采集系统,包括福建省2015-2017三年的用电、线损和告警数据。经过清洗、筛选和归一化后,共约90万条。实验一首先对样本全集采用十折交叉验证,训练集和测试集比例为7∶3。实验二以15、16年的样本作为训练集,17年的作为测试集,以验证模型对未来数据的预测能力。最终模型输出按照窃电嫌疑排序的分级清单,以及每级的窃电嫌疑下限,这样方便业务人员根据不同窃电嫌疑级别采取不同的应对措施。
模型的查准率也在下降,说明模型对有把握的样本有更好的预测准确率,两组实验的Top100窃电查准率分别达到78%和83%。从效益和成本考虑,线上查准率一般需要达到20%以上时比较适合去现场巡查。实验一的前6级结果符合需求,共检测出565条窃电样本,占测试集窃电总数的38.18%(查全率),综合查准率为43.46%;实验二的前6级共检测出473条窃电样本,查全率为33.43%,综合查准率为36.38%。
上述结果表明,本文方法对黑名单中30%~40%具有明显窃电特征的样本具有很好的判断能力,但对于其它样本的分析能力不强,这可能是由于黑名单训练样本不足以及白名单不可避免引入的噪声,导致收集的窃电行为特征不够丰富。实验二与实验一结果的差距较小,说明模型对跨年度数据仍然具有很强的泛化能力,排除了对相同年度数据过拟合的可能。
4结束语
本文针对低压用户的窃电行为,进行特征工程构建。结合两种深度学习网络,对用电量时序采用卷积网络,对用户信息、台区线损、告警异常采用全连接网络进行分别训练。通过福建省三年历史数据的实验结果表明,模型精准定位了部分窃电用户,相较传统人为观测或线下随机摸排的方式,具有较大的改进。
参考文献:
[1]王亚东,高岩,金锋.智能电表数据分析及应用综述研究[J].信息技术,2015,39(2):64-68.
[2]曹敏,邹京希,魏龄,等.基于RBF神经网络的配电网窃电行为检测[J].云南大学学报:自然科学版,2018,40(5):872-878.
[3]青志明,张宏艳,龙漪澜,等.基于载波异常监测的窃电行为判断方法[J].科学技术与工程,2018,18(20):246-251.
[4]刘盛,朱翠艳.应用数据挖掘技术构建反窃电管理系统的研究[J].中国电力,2017,50(10):181-184.
[5]李端超,王松,黄太贵,等.基于大数据平台的电网线损与窃电预警分析关键技术[J].电力系统保护与控制,2018,46(5):143-151.
[6]曹峥,杨镜非,刘晓娜.BP神经网络在反窃电系统中的研究与应用[J].水电能源科学,2011,29(9):199-202.
[7]周文婷,顾楠,王涛,等.基于数据挖掘算法的用户窃电嫌疑分析[J].河南科学,2015,33(10):1767-1772.
[8]张瑞.基于用电信息数据挖掘的智能反窃电研究与应用[J].价值工程,2016,35(35):51-54.
[9]周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.
相关期刊推荐:《计算机学报》杂志级别:科技统计源核心 北大核心 CSCD,主办单位:中国技术经济学会,周期:旬刊,国内统一刊号:11-4688/T,国际标准刊号:1671-1815。复合影响因子:2.906,综合影响因子:1.528。
* 稍后学术顾问联系您