复杂数据源下基于深度卷积网络的局部放电模式识别-期刊天空网

　　摘要：随着局部放电检测技术和大数据技术的推广，变电站现场气体绝缘组合电器(GIS)的局部放电检测数据不仅数量庞大，而且数据来源复杂，因此传统的局部放电模式识别方法已难以满足需求。鉴于此，提出了一种基于深度卷积网络的局部放电大数据模式识别方法，构建了应用于局部放电模式识别的深层卷积网络模型，同时应用深度自编码器对模型参数进行初始化，利用多层卷积神经网络提取局部放电大数据的深层特征以提高复杂数据源下的识别正确率。通过真型 GIS 模型实验、变电站现场带电检测和典型干扰实验获取了大量局部放电检测数据，组成复杂数据源的测试样本，并对所提方法进行了实验分析。实验结果表明：与传统的模式识别方法相比，新所提的方法在处理复杂数据源样本任务中识别正确率更高，且识别正确率提高值随样本数据的增加而增大，更适合于大数据平台的工程应用需求。

复杂数据源下基于深度卷积网络的局部放电模式识别

　　关键词：GIS;大数据;模式识别;深度卷积网络;局部放电

　　0 引言

　　气体绝缘组合电器(GIS)在当前电力系统中已得到大量应用，其设备的绝缘状态与电网安全息息相关[1]。局部放电是有效反映电力设备内部绝缘缺陷的主要特征之一，对 GIS 设备进行局部放电检测可有效获取设备的绝缘状况，从而及时消除隐患，避免重大事故的发生[2-3]。因此当前 GIS 局部放电检测技术得到了大力推广，针对 GIS 的现场局部放电检测数据也呈海量增长的趋势。由于 GIS 设备现场运行环境复杂多样，变电站现场的局部放电检测数据中不可避免地包含各种类型的干扰信号，与实验检测信号存在较大差异[4-5]。另外，由于当前的局部放电检测设备多种多样，不同的检测设备在现场检测的局部放电数据也有所区别，因此，针对大数据情况下的局部放电模式识别，传统的分析方法已经难以满足需求。

　　当前国内外学者针对局部放电的模式识别做了大量研究，但研究的重点在局部放电信号的特征提取上。在模式识别方面，当前已有的研究主要应用了实验室实验数据，而较少的考虑到现场检测数据的复杂性[6-9]。此外，文献[10]探讨了局部放电大数据的并行局部放电谱相位图(PRPD)分析与模式识别，该文将云计算技术应用于解决海量局部放电信号的特征提取与类型识别问题，但该文的重点在于海量局部放电数据的并行化计算方法，并未针对现场大数据的复杂来源下局部放电模式识别方法进行研究。

　　由于深度学习(DL)在大数据特征提取、数据降维等方面表现出显著优势，目前已被广泛应用于图像处理、语音识别等领域[11-14]。深度学习网络具有自主从海量数据中学习特征信息的特性，与传统人工特征选择方法相比，其更有利于提取数据内在信息。其中，由于深度卷积网络(CNN)在图像识别领域取得的优异表现，尤其在大图像处理上的优势，其在当前应用最为广泛，是近年来深度学习领域的研究热点[15-17]。GIS 局部放电检测分析中常用的 PRPD 图谱和脉冲序列相位图谱(PRPS)的数据，本质上均为尺寸较大的二维矩阵，与数字图像的数据格式具有一定的相似性。此外，由于现场条件的影响，该矩阵中的数据也会出现相位偏移、幅值大小不一等情况，而深度卷积网络具有对于输入样本的平移、缩放、扭曲不变性。综上所述，本文提出一种基于深度卷积网络的局部放电大数据模式识别方法。以 CNN 为基础模型，利用自编码网络对样本数据进无监督预训练，获取卷积层初始参数。通过卷积、池化及反向传播操作，达到识别参数最优化。通过提取多源局部放电大数据特征映射，有效提高复杂场景海量局部放电数据的模式识别准确率。

　　1 深度卷积网络

　　1.1 CNN 的网络结构

　　卷积神经网络与全连接的神经网络在网络结构上存在着较大的不同。卷积神经网络包含输入层、卷积层、池化层、全连接层、输出层[18]。深度卷积网络一般由卷积层和池化层交替组成一个多层的深度结构，然后通过一个或多个全连接层，最后在输出层通过一个分类器将结果输出，如图 1 所示。图中，C1、C2 代表卷积层 1、2;S1、S2 代表池化层 1、2。

　　由图 1 可见，卷积层由多个二维卷积核组成，每个卷积核均可视为参数可训练学习的滤波器，输入样本数据通过卷积运算提取得到多个特征，一般称为特征子图。局部感受野方法使卷积层中的每一个特征子图只与前一层的部分特征图连接[19-20]。卷积阶段利用权值共享减少了权值数量，降低了网络模型的复杂度。同时池化阶段利用图像局部相关性原理对特征图进行子抽样，在保留有效信息的同时减少数据处理量。通过逐层卷积及池化，逐级提取隐藏在数据中的特征信息。

　　2 基于 CNN 的局部放电模式识别方法

　　在大数据的平台下局部放电检测数据有丰富的来源，包括设备的在线监测系统、带电检测巡检、设备的离线测试、模拟实验等，不同的检测系统，其传感器的性能、采集装置性能和数据表示方法也有所区别。因此，大数据平台下对局部放电进行模式识别，首先针对各种数据来源对数据进行归一化处理。局部放电的 PRPS 图谱表达了局部放电数据按照相位统计的局部放电脉冲幅值和脉冲个数的分布特征。该类型的数据可由一个二维矩阵表示，其矩阵的两个维度分别代表相位和周期，矩阵的数值代表局部放电脉冲的幅值。不同来源的数据主要在相位分辨率和幅值分辨率上会有所区别。假设以 1° 为相位分辨率，则相位维度的尺寸为 360，以 5°为相位分辨率，则相位维度的尺寸为 72。将高相位精度的数据映射为低相位精度数据时，可以直接将高相位精度的数据按照较低的相位精度对相应的相位区间内数据求和。将低相位精度的数据映射为高相位精度的数据时，本文采用乘积最大的优化原则，将低相位精度的数值拆分插值于高相位精度对应的相位区间内。针对幅值，本文按照其动态范围进行线性归一化，对于无法获取动态范围的数据，按照样本的最大值和最小值进行线性归一化，如式(3)

　　本文采用改进型经典卷积神经网络 LeNet-5 结构[21]，包含 1 个输入层、2 个卷积层，2 个对应的池化层、2 个全连接层和 1 个输出分类层。输入层本文采用 PRPS 格式数据，将数据的维度归一化为 72×50，数据的幅值按式(3)进行归一化。其中第 1 卷积层有 6 个 3×3 尺寸的卷积核，第 2 卷积层有 36 个 3×3 尺寸的卷积核，激活函数采用 Sigmoid 函数。池化层的参数分别为 2 和 11，采用最大池化操作。第 1 个全连接层的神经元个数为 36，第 2 个全连接层的神经元个数为 25。输出选用适应于非线性多分类问题的 Softmax 分类器，用于识别 6 种模式。

　　为了提高深度卷积网络的训练效率和识别效果，本文首先利用自编码器对样本集数据进无监督预训练，以获取样本集的初步特征，并利用训练所提取的特征对上述的卷积神经网络中的卷积层进行初始化。自编码器是一种将输入信号从目标表达中重构出来的神经网络，利用自编码网络对样本数据进行无监督训练，其隐层学习得到的即为样本数据的特征[22]。此项操作可在卷积神经网络的训练中应用更少的迭代次数来获取更优的识别效果。基于深度卷积网络的复杂数据源下局部放电模式识别框架如图 2 所示。

　　具体实现步骤如下：

　　1)对训练样本集数据进行归一化处理。

　　2)构建自编码器模型，利用训练样本集数据，对自编码器进行无监督训练。

　　3)构建深度卷积网络模型，并利用自编码器所得的模型参数初始化卷积网络的卷积层参数。

　　4)利用训练样本集数据对深度卷积网络进行训练。计算样本数据的输出，计算输出与样本标签的误差 σ，利用反向传播(BP)算法和随机梯度下降法对网络参数进行迭代更新，得到识别模型最优化参数。

　　5)对待测试数据进行归一化，输入参数训练好的深度卷积网络模型，得到模式识别结果。

　　3 复杂数据源样本集的获取

　　本文通过局部放电模拟实验、变电站现场局部放电检测和典型局部放电干扰实验 3 种方式，使用数字局部放电检测仪、示波器、便携式局部放电检测仪等多种仪器获取局部放电数据，组成复杂数据源的样本集。实验及变电站现场检测中主要仪器的型号及其关键参数如表 1 所示。

　　3.1 局部放电模拟实验

　　设计了 5 种典型的局部放电模型，并利用 GIS 真型实验平台进行实验。实验模型与实验接线分别见图 3 和图 4。

　　模拟实验中针对 5 种缺陷类型分别利用表 1 所示的仪器采集样本数据，测得的典型 PRPS 数据经过归一化后见图 5。图中，幅值为式(3)中的归一化幅值 yR，周期共 50 个，每周期为 20 ms。

　　3.2 变电站现场检测

　　通过对某省电力公司的 110~500 kV 多座变电站进行的局部放电带电检测工作，积累了大量的现场检测数据，包含设备正常的检测数据和经解体验证的有缺陷设备检测数据。图 6 为一例典型悬浮放电缺陷案例的 PRPS 格式检测数据。

　　3.3 典型干扰数据

　　为了获取典型干扰信号的放电特征，本文通过实验采集了典型手机干扰、电钻干扰、对讲机干扰、节能灯干扰、电机干扰、微波硫灯干扰等干扰信号，并在变电站现场采集了雷达干扰、电子围栏干扰等干扰信号，图 7 所示为部分典型干扰的 PRPS 格式检测数据。

　　4 识别实验结果与对比分析

　　识别实验平台配置为酷睿 i7 处理器 3.9 GHz，内存为 16 G，代码采用 Matlab 实现。使用检测数据中的 PRPS 格式数据进行实验，识别目标为 6 类，分别为悬浮电极放电、电晕放电、自由金属微粒放电、绝缘气隙放电、沿面放电、干扰。按照不同训练样本集大小和不同迭代次数，分别考察了本文模型与基于统计特征的径向基函数支持向量机 (SVM)、BP 神经网络(BPNN)的识别效果对比。采用的统计特征参数由局部放电幅值与次数在整个工频周期和工频正负半周的偏斜度 Sk、陡峭度 Ku、不对称度Q和互相关系数Cc等16个特征参数组成，详细计算见文献[3]。本文采用混淆矩阵考察各个算法的识别效果，混淆矩阵中黑色单元为每类识别正确样本个数及其占总样本的比例，白色单元为该类识别错误样本个数及其占总样本的比例，条纹状单元包含总样本的平均识别正确率和识别错误率，灰色单元为每类的召回率和精确度。

　　4.1 不同训练样本集大小

　　从样本集中随机挑选了 1 000 数据组成样本总体，将其中 800 条数据进行训练，200 条数据进行测试，迭代次数为 200 次，利用本文模型对训练数据和测试数据进行模式识别，识别结果的混淆矩阵见图 8。

　　由图 8 可见，经过 200 次迭代后，该 CNN 模图8 CNN在800训练样本下的训练数据和测试数据的混淆矩阵 Fig.8 Confusion matrix of traindata and testdata from CNN with 800 train samples 型对于 800 条训练数据达 100%的平均正确率，对于 200 条测试数据，该算法在 6 类上的识别平均正确率达到 89.7%，其中两类绝缘类缺陷(气隙放电和沿面放电)数据正确率较低。而其余悬浮电极放电、电晕放电、微粒放电和干扰均具有很好的效果。分析其原因，现场检测的 GIS 绝缘类局部放电，一般发生在盆式绝缘子或母线支撑绝缘子上，部分案例中绝缘子已经产生裂纹，因此其放电数据中可能包含了沿面放电和绝缘内部放电两种放电类型，与实验中单一的放电类型有较大的不同，难以归为具体的某一类放电类型，因此 CNN 模型对气隙放电和沿面放电的识别结果有所降低。

　　对比使用 RBF 核函数的 SVM 和 BPNN 在本样本集测试数据上的识别效果见图 9。

　　在复杂数据来源的情况下，SVM 和 BPNN 方法的平均识别正确率分别为 79.3%和 72.4%。尤其在微粒放电类型的检测上，识别率较低，另外气隙放电的识别率也较低。由此可见，深度网络可以提取出更优于一般统计特征的深层特征，因此可获取更好的分类效果。

　　本文来源于：《高电压技术》为国内外唯一集中、全面地反映当前高电压技术领域科技信息的专业技术刊物，本刊报道内容包括高压设备、输电线路、系统暂态、测试工程、电磁、城网供电、电力电子等及生态环保生物医疗等边缘、交叉学科。既有基础理论研究也有工程实践应用。本刊读者对象为电力系统生产、建设、运行、管理部门及相关产业科研、设计、制造单位的领导、科技人员、大专院校师生及其他相关工程技术人员。

　　考察 3 种算法的计算时间。训练阶段，CNN 模型用时最长，为 15.63 min，SVM 方法和 BPNN 方法分别为 13.95 min 和 11.17 min。但对 200 条测试数据集的识别结果计算，CNN 模型用时最短，为 4.1 s，而 SVM 方法和 BPNN 方法总体用时分别为 13.6 s 和 11.8 s。分析其原因，由于传统基于统计特征的识别方法首先需要进行对原始数据提取特征值的操作，而深度网络模型前向计算过程本身即为特征提取过程。在工程应用中，模型的训练计算一般较少进行，更多为对数据的识别计算，因此整体上看，CNN 模型在计算时间上对传统基于统计特征的识别方法仍然具有优势。下一步的研究中考虑应用图形处理器(GPU)平台和并行计算的方法进一步降低 CNN 模型的训练和计算时间。

　　逐步减小训练样本集为 400、200、100，按照不同的训练样本集大小，考察 3 种算法的识别效果变化，可得到图 10 所示的结果。

　　训练样本集大小为 400 时，CNN 的识别平均正确率为 86%，比 SVM 的识别平均正确率高 11.7%，比 BPNN 的识别平均正确率高 15.6%;当训练样本集减少到 200 时，CNN 的识别平均正确率已经比另外两种方法识别结果的提高效果显著降低;而当训练样本数量降低至 100 时，CNN 的识别平均正确率与传统方法已区别不大，甚至有所降低。

　　4.2 不同训练样本数据来源

　　当只使用 200 条实验室实验数据进行训练检测时，本文模型与 SVM 和 BPNN 算法的识别效果对比如表 2 所示。

　　当向训练样本中再加入 200 条现场检测数据，即训练样本中同时包含50%的实验数据和50%的现场检测数据时，3 种模型的识别效果如表 3 所示。

　　由表 3 可见，加入现场检测数据后，深度卷积网络的识别率下降了 8.9%，仍可达到 80%以上，而 SVM 和 BPNN 的识别率分别下降了 17%和 20.4%。分析其原因，CNN 模型识别正确率下降的主要原因是由于气隙放电和沿面放电两类绝缘类放电缺陷的识别正确率下降引起，如前所述，现场的部分绝缘类放电缺陷数据可能同时包含气隙和沿面两种放电类型，因此较难归类;SVM 和 BPNN 模型除了气隙放电和沿面放电的识别正确率下降，微粒放电的识别正确率下降严重，现场的微粒放电全部识别为干扰，导致总体平均识别正确率下降严重。因此，在样本数据特征比较复杂的情况下，本文提出的模型较传统方法具有更好的泛化性能。

　　5 结论

　　针对大数据平台下复杂来源局部放电数据的模式识别问题，本文提出一种基于深度卷积网络的局部放电模式识别方法，并通过实验室典型缺陷模拟实验，变电站现场带电检测和干扰实验等获取了复杂数据源的局部放电数据样本，将本文提出的方法与传统的识别方法进行了对比分析：

　　1)深度学习可以自主从数据中学习特征，通过深层网络的构建，可以提取比传统统计参数更丰富的信息。在训练样本集为 200 时，深度卷积网络相比基于统计特征的 SVM 和 BPNN 算法的识别平均正确率开始有所提升，随着样本数据扩大丰富，识别正确率提高值进一步增大。

　　2)在单一数据源样本集和混合数据源样本集的对比实验中，本文所提的方法相比传统的识别方法识别正确率提高值在 10%以上，表现出更好的泛化能力，更加适用于大数据平台的应用。

　　3)相比基于统计特征的 SVM 和 BPNN 算法，本文所提方法在模型训练上用时较长，在识别结果计算上用时较短，计算时间整体上仍具有一定优势，下一步研究考虑应用 GPU 平台和并行计算方法进一步降低 CNN 方法的训练和计算时间。——论文作者：宋辉 1 ，代杰杰 2 ，张卫东 3 ，毕凯 3 ，盛戈皞 1 ，江秀臣 1

　　参考文献 References

　　[1] 王先培，肖伟，胡明宇，等. 基于 SF6分解产物融合判断的 GIS 绝缘裂化趋势划分[J]. 高电压技术，2016，42(6)：1834-1840. WANG Xianpei, XIAO Wei, HU Mingyu, et al. GIS insulation deterioration trend division based on SF6 decomposition products fusion judgment[J]. High Voltage Engineering, 2016, 42(6): 1834-1840.

　　[2] 李金忠，张乔根，李原，等. 油纸绝缘局部放电脉冲参数统计分析与老化状态诊断技术[J]. 高电压技术，2015，41(11)：3821-3829. LI Jinzhong, ZHANG Qiaogen, LI Yuan, et al. Statistical analysis of pulse parameters and diagnose of aging state based on partial discharge in paper-oil insulation[J]. High Voltage Engineering, 2015, 41(11): 3821-3829.

　　[3] 黄亮，唐炬，凌超，等. 基于多特征信息融合技术的局部放电模式识别研究[J]. 高电压技术，2015，41(3)：947-955. HUANG Liang, TANG Ju, LING Chao, et al. Pattern recognition for partial discharge based on multi-feature fusion technology[J]. High Voltage Engineering, 2015, 41(3): 947-955.

　　[4] 侯慧娟，盛戈皞，姜文娟，等. 基于信号模型参数辨识的变电站局部放电电磁波信号重构[J]. 高电压技术，2015，41(1)：209-216. HOU Huijuan, SHENG Gehao, JIANG Wenjuan, et al. Signal reconstruction for partial discharge electromagnetic wave in substation based on signal model parameters identification[J]. High Voltage Engineering, 2015, 41(1): 209-216.

　　[5] 叶海峰，钱勇，王红斌，等. 开关柜表面暂态地电压信号频谱特征[J]. 高电压技术，2015，41(11)：3849-3857. YE Haifeng, QIAN Yong, WANG Hongbin, et al. Spectrum characteristics of transient earth voltages aroused by partial discharge in switchgear[J]. High Voltage Engineering, 2015, 41(11): 3849-3857.

　　[6] 张晓星，舒娜，徐晓刚，等. 基于三维谱图混沌特征的 GIS 局部放电识别[J]. 电工技术学报，2015，30(1)：249-254. ZHANG Xiaoxing, SHU Na, XU Xiaogang, et al. GIS partial discharge recognition based on chaos features of the three-dimensional spectra[J]. Transactions of China Electrotechnical Society, 2015, 30(1): 249-254.

　　[7] 律方成，金虎，王子建，等. 基于主成分分析和多分类相关向量机的 GIS 局部放电模式识别[J]. 电工技术学报，2015，30(6)： 225-231. LÜ Fangcheng, JIN Hu, WANG Zijian, et al. GIS partial discharge pattern recognition based on principal component analysis and milticlass relevance vector machine[J]. Transactions of China Electrotechnical Society, 2015, 30(6): 225-231.