机器视觉应用中的图像数据增广综述-期刊天空网手机端

　　摘要：深度学习是目前机器视觉的前沿解决方案，而海量高质量的训练数据集是深度学习解决机器视觉问题的基本保障。收集和准确标注图像数据集是一个极其费时且代价昂贵的过程。随着机器视觉的广泛应用，这个问题将会越来越突出。图像增广技术是一种有效解决深度学习在少量或者低质量训练数据中进行训练的一种技术手段，该技术不断地伴随着深度学习与机器视觉的发展。系统性梳理当前图像增广技术研究，从增广对象、增广空间、标签处理和增广策略生成的角度，分析现有图像增广技术的研究范式。依据研究范式提出现有图像增广技术的分类系统，重点介绍每类图像增广研究的代表性研究成果。最后，对现有图像增广研究进行总结，指出当前图像增广研究中存在的问题及未来的发展趋势。

机器视觉应用中的图像数据增广综述

　　关键词：深度学习;计算机视觉;图像增广;数据增广;图像增强

　　机器视觉中的图像处理是人工智能的一个重要的研究领域，包括图像分类、语义分割、对象分割和目标检测等应用[1-3] 。现阶段，随着硬件设施的不断完善和深度学习[4] 技术的提出以及不断发展，基于深度学习的图像分类方法也日新月异。自 Alex等学者将深度卷积网络 AlexNet[5] 应用在图像分类中并取得远比其他传统图像分类方法更低的错误率后，基于深度学习的图像处理解决方案成为主流。随后，新的深度学习网络结构，如 NiN[6] 、VGG[7] 、ReNet[8] 、GoogLeNet[9] 、 ResNet[10] 、InceptionNet[11- 12] 、MobileNet[13- 15] 、DenseNet[16] 、 EfficientNet[17] 、ResNeXt[18] 和 ResNeSt[19] 等网络结构被不断地提出并在不同的图像应用场景大放异彩。

　　深度学习在计算机视觉领域取得的巨大成功，主要归功于三大因素[1,20-21] ：(1)强大的深度学习模型的表达容量;(2)不断增大的可获得算力;(3)大规模可获得的标注数据集。为了促进深度学习在不同的图像处理领域的发展，数以万计的不同类型的图像数据被收集、标注和公开应用，其中最著名的是 ImageNet[22] 。按照图像应用场景和图像类型进行划分，现有数据集可以从图像的类型上分成 2D 数据集、2.5D 数据集和 3D数据集[22-40] ，覆盖了图像分类、语义切割、对象分割和自动驾驶等各个应用，极大地促进了深度学习图像技术的发展。尽管如此，对于各种专业领域的深度学习图像应用，缺少合格的领域图像数据仍然是一个不争的事实，尤其是在医疗图像处理[41-42] 、AI 农业[43-44] 等领域。

　　He等学者[45] 指出自 2012年 AlexNet[5] 首次使用深度神经网络进行图像分类并获得比其他传统图像处理方法更好的效果以来到NASNet-A[46] 的提出，ImageNet的 Top-1 分类准确率已经从 62.5%提升到 82.7%。同时作者也指出这些成就的取得，不仅仅归功于网络模型的设计和优化，包括图像增广在内的多种优化方案和训练技巧也同样非常重要。

　　图像增广是在有效训练数据受限的情况下解决深度学习模型训练问题的一种有效方法。大量的增广技术和方法被提出来丰富和增广训练数据集，提升神经网络的泛化能力。常见的图像增广方法主要基于图像变换，例如光度变化、翻转、旋转、抖动和模糊等[1,41,47-48] 。随着深度学习中神经网络的层数不断扩大，表达能力的不断提升，为了能够更好防止模型过拟合，出现了以 mixup[49] 为代表的合成样本图像增广方法[50-57] 和使用生成对抗网络(generative adversarial nets，GANs)[58] 为代表的虚拟图像样本生成的图像增广方法[59-63] 等。在不同应用数据集和应用场景下，图像增广的策略和方法也不尽相同。因此，为了在特定的图像数据集和应用场景中找到最佳的图像增广策略，出现了基于算法或模型进行增广策略搜索的智能图像增广相关研究。例如，Fawzi 等学者[64] 提出了自适应图像增广，Cubuk 等学者[47] 提出了基于循环神经网络的自动增广框架。除此以外，还有更多的研究[65-71] 在探索智能或者自动化的图像增广技术。

　　当前，图像增广的研究层出不穷，各种新方法和新思路不断地被提出来用于增广训练图像数据集。在层出不穷的图像增广研究中把握住图像增广的范式，对现有图像增广研究进行分门别类，对于引导研究人员针对不同的视觉应用找到合适的图像增广方法以及启发新的图像增广研究是非常重要的。

　　本文从图像增广的对象、操作的空间、图像标签的处理方式和图像增广策略的调优方式四个维度出发，归纳出现有图像增广研究的主要内容，如图 1 所示。

　　首先，本文根据图像增广的对象不同分成引入外部图像的半监督增广，从噪声生成虚拟图像样本的虚拟图像生成增广，以及面向图像训练数据集操作的图像增广。其次，本文从增广操作的空间上，区别直接在图像空间(raw image)进行增广以及在图像通过模型转换到隐空间(latent space)增广。根据图像增广过程中是否需要考虑图像标注信息以及增广后产生的新样本或者新样本特征的标签是否出现扰动，本文进一步将图像增广分成标签保留增广和标签扰动增广。最后，本文对使用算法或者模型确定图像增广的参数或者方法的研究归为智能图像增广，用于区别研究人员制定图像数据增广方法和具体策略的传统图像增广研究。

　　本文的主要研究内容和贡献可以总结为：

　　(1)系统性梳理图像增广领域的相关研究，提出图像增广的研究范式和分类体系，并对现有相关研究工作进行分类。

　　(2)依据本文提出的图像增广分类体系对每个类别中的代表性研究工作及其衍生研究进行客观的分析对比，并指出这些研究的创新点、适用场景和局限性。

　　(3)讨论并总结目前图像增广研究领域的发展现状、研究挑战及其未来的发展方向。

　　本文的内容将按照图 2所示的内容进行展开。

　　1 基本图像增广

　　本文首先对基本图像变换增广进行回顾。基本图像变换增广的主要特征是面向训练数据集的图像样本执行特定的图像变换操作(例如几何变换、光照变换等)，产生新的图像样本的标签信息与原始图像样本的标签信息保持一致。可以通过以下形式化描述来定义基本图像变换增广的范式。

　　1.1 几何与纹理变换图像增广

　　几何图像变换和纹理变换是在图像的几何空间所进行的增广操作。主要的增广方法如表 1所列，包括图像翻转、噪声、模糊、缩放、随机裁剪、仿射变换等。

　　1.1.1 翻转增广

　　图像的翻转是指沿着 X 轴或者 Y 轴进行旋转，使用 I′ 表示翻转后的图像。当沿着 y 轴进行翻转时，I′ 表示左右翻转(也有文献称为水平镜像)后的图像样本。当 X 轴进行翻转时，I′ 表示上下翻转(垂直镜像)后的图像样本。翻转图像增广示例如图 3所示。其中，左边子图是原始图像，中间子图是在原始图像上通过水平翻转后的图像，右边子图是在原始图像上通过垂直翻转获得的图像。

　　1.1.2 噪声增广

　　图像的噪声增广是通过往原始图像中每个像素加入额外的随机信息，从而获得有别于原始图像的增广图像。为了方便起见，使用 M 表示噪声矩阵，其中 M 与原图像样本 I 具有相同的尺寸。当 M 中的每个元素由高斯分布 N(μ,σ2 ) 产生时，称为高斯图像噪声增广。

　　图 4 为噪声增广的示例。左边子图为原始图 I ，中间子图为高斯分布产生的随机数所填充的噪声矩阵 M ，最右边子图为原始图像 I 与噪声矩阵 M 相加后生成的噪声增广图像 I′ 。 1.1.3 模糊增广图像模糊的原理是将图像中的每一个像素的取值重置为与周边像素相关的取值，例如周边像素的均值、中位值等。决定该像素取值与周边像素的范围称为模糊半径，常用 γ 表示。

　　给定图像模糊半径 γ ，计算区域内每个像素的取值方法不同决定了图像模糊方法的不同。例如，使用高斯分布计算区域内的每个像素的取值，称为高斯图像模糊，使用直方图均值方法计算区域的每个像素的图像模糊方法，称为直方图模糊[75] 。如图 5 所示，左侧是原始图像 I ，右侧是经过模糊半径为 2 (γ = 2) 的高斯模糊 (σ = 1.5) 增广后形成的图像样本 I′ 。

　　1.1.4 缩放增广

　　图像缩放包括图像的放大和图像的缩小。数据集的每张图像的长宽往往不一致，但是深度学习的输入往往需要一致的图像尺寸。例如 224 × 224 ，因此图像缩放增广在深度学习中经常作为预处理操作。给定图像样本 I，其任意图像像素 xi,j ∈ I,0 ≤ i,j < N，N 称为最大的像素坐标。则图像的缩放可以理解为任意的图像像素点 xi,j 沿着坐标轴 X 和 Y 轴上进行缩放，如式(2)所示。其中 (i,j) 为像素的原始坐标， (u,v) 为经过缩放后的新坐标，kx 和 ky 为 X 轴和 Y 轴方向的缩放比例。

　　1.1.7 图像擦除增广

　　图像擦除是对图像样本 I 的部分信息进行消除，使得消除后的图像样本 I′ 仅仅包含 I 的部分信息。图像擦除增广的思想是模拟图像应用场景中的图像遮挡现象，通过人为地以一定概率对训练图像进行“损坏”，并将“损坏”的图像样本数据输入给神经网络图像分类模型，引导模型学习图像的残余信息，防止模型过拟合从而最终提升模型在测试样本的泛化性能。

　　1.2 光学空间变换增广

　　光学空间变换增广是通过调整图像的光学空间进行的增广操作。主要的光学空间变换增广包括光照变化和颜色空间转换。其中，光学变换包括图像亮度变换、对比度和图像锐化，颜色空间变换主要包括 RGB 颜色空间与 CMY 颜色空间、XYZ 颜色空间、 HSV 颜色空间、YIQ 颜色空间、YU 颜色空间和 LAB 颜色空间之间的转化[77] 。常见的光学变换增广方法如表 2所示。

　　1.2.1 光照变换增广

　　光照变化增广包括亮度变化、对比度和图像锐化增广等。图像的亮度变化是直接对图像样本 I 的每个像素点进行线性变换操作[78] 。使用 λ 表示图像亮度变换系数，则经过亮度变化增广的图像样本 I′ 可以通过等式(6)表示，其中 0 < λ < 1 图像变暗，λ > 1 时图像样本变亮。

　　1.2.2 颜色空间变换增广

　　彩色图像中，常用的颜色空间主要有RGB颜色空间、CMY 颜色空间、XYZ 颜色空间、HSV 颜色空间、 YIQ 颜色空间、YU 颜色空间和 Lab 颜色空间等[77] 。 RGB 颜色空间是彩色图像样本中最常使用的颜色空间。在图像样本中使用三个通道表示，每个通道分别表示一种颜色。RGB 颜色模型的红绿蓝三种基色的波长分别是 λR = 700.0 nm ，λG = 700.0 nm 和 λB = 700.0 nm [77] 。RGB 颜色空间的特点在视觉上非常均匀，任意一种颜色可以通过三种颜色混合而成。

　　1.3 基于统计的图像增广

　　基于统计的图像增广方法通过引入统计学原理对图像进行建模，通过对统计变量进行变换，达到增广图像中关键信息的目标。基于统计的图像增广算法包括直方图均衡化增广、小波变换增广、偏微分方程增广和 Retinex 图像增广等方法。其中，直方图均衡化增广和小波变换增广两种方法最为常见[79] 。

　　1.3.1 直方图均衡化增广

　　直方图均衡化增广是对图像样本 I 的输入灰度映射为增广后图像样本 I′ 的灰度级，使得 I′ 的灰度级具有近似均匀分布的概率密度函数并最终使得 I′ 比 I 具有更高的对比度和更宽的动态范围的过程[79] 。

　　2.4 图像混合增广总结

　　图像混合增广的最大创新之处就是改变图像样本标签的独热标注信息。训练样本数据集的标签信息更加平滑，在一定程度上能够提升网络的泛化容量。尽管目前有很多不同类型的图像混合的方式，但是图像混合研究目前还主要处于实验科学阶段，缺乏完备的科学理论对其进行解释。

　　3 特征空间增广

　　特征空间增广是面向训练样本的特征进行增广，达到提升模型泛化性能的目标。特征空间增广区别于传统图像空间增广，增广操作在样本经过若干个神经网络层所产生的隐向量上进行。使用 Zi = F(Ii ) 表示图像样本 Ii 经过特征编码函数 F(∙) 获得其隐空间的特征 Zi 的过程。与图像空间增广类似，特征空间增广可以依据特征增广后的特征标签是否出现扰动进一步分类成特征变换和特征增广。

　　特征空间增广研究汇总如表 4 所示。Devries 和 Taylor 两位学者在 2017 年 ICLR(The International Conference on Learning Representations)中提出了在数据集特征空间实现数据增广的方案 [102] 。该方案由三个步骤构成：首先，使用一个序列自动编码器从无标签的数据 X 中学习该样本不同序列的表达，并形成该样本的特征向量集合 C 。然后，将样本通过编码器生成样本的特征，再对特征进行增广。例如增加噪声、插值等。最后，经过增广后的特征将可以用于训练静态的特征分类器或者用于训练序列分类器。该方法用于阿拉伯数字识别中进行评估，可在基线测试中将错误率从 1.53%降至 1.28%。该方法的创新之处是将在样本空间中的增广方法迁移到特征空间中，能够在少量训练样本中学习到更强的表达逻辑，从而降低模型的误差。

　　Liu 等学者认为诸如翻转、变形、噪声、裁剪等图像空间的数据增广方法产生的合理数据非常有限，因此 Liu 等学者提出了在特征空间进行线性插值的对抗自动编码(adversarial autoencoder，AAE)[100] 图像增广方法。AAE 是自动变分编码器(variational autoencoder，VAE)和生成对抗网络 GANs 的结合体。 AAE 将自动变分编码器中的 KL 散度损失替换成生成对抗网络的判别器损失。

　　AAE 与标准的 VAE 一样，从图像样本 I 经过编码器转换成隐空间中的特征变量 Z ，在隐空间中对 Z 进行线性插值后再通过解码器生成增广样本 I′ 。不同的是引入对抗网络从 Z 中进行采样 P(Z) 作为其中的一个输入，同时将隐空间中插值后的 Z 作为另外一个输入，计算两路输入之间的对抗损失。AAE 在 CIFAR数据集中进行评估后获得了最优的结果。

　　特征空间增广将在图像层(raw image layer)的增广操作泛化到特征隐藏层(latent layer)，使得图像增广的范畴更加广泛和图像增广研究的思路更加开阔。同时，研究[96] 表明在特征空间增广相对于在图像空间增广效果更加显著。未来，更多在图像空间增广的研究成果可以在特征空间上进行应用、检验和改善。

　　4 半监督增广

　　半监督图像增广的思路是将训练数据集外的其他未标注数据通过半监督技术使其加入到训练数据集中，以此达到扩充训练数据集的效果。使用 U = {uk } K k = 0 表示具有 K 个样本的无标签数据集，使用 Φ(∙) 表示通过使用已有训练数据集 X 进行预训练的模型。使用 yk ′ = Φ(uk) 表示无标签样本 uk 的伪标签，并将 (uk,yk ′) 加入到训练数据集 X 中，以此达到扩充训练数据集的目标。

　　Han 等[103] 学者提出了基于 Web 的数据增广的方法用于提升图像分类的效果。增广的思路总结如下：(1)将相同类别的训练样本放入同一个有序列表中，排在越前的样本代表该类的可信度越大。然后从每个类别的列表中随机选择图像样本作为种子上传到 Google 进行以图搜图。(2)下载所有的搜索结果，计算所下载图像样本与列表中图像样本的相似度。满足相似度阈值的图像样本将加入到候选集中，其样本标签与种子标签一致。(3)每个图像列表中选择 Top-K 个最高相似度的下载图像样本，加入到训练数据集中。该方法的有效性易受到诸如网络和图像提供方等外在因素的影响。该方法适合在缺乏额外图像样本的情景下作为一种可选的训练集增广方法。

　　相关知识推荐：计算机视觉图像处理论文怎么发表ei期刊

　　Berthelot 等学者[51] 提出 MixMatch 的半监督数据增广方法。首先，MixMatch 使用半监督的技术预测 K 个经过随机数据增广后的无标签样本的标签。然后，将 K 个标签经过算法最终确定给出该无标签样本的预测标签。最后使用 mixup 技术随机从半监督增广获得数据集和已有标签数据集中选择图像样本进行混合形成最终增广后的训练数据集。

　　作者在 CIFAR-10数据集上，使用 MixMatch对没有标签的数据进行半监督学习，使得模型的分类错误率降低 4倍。然而，由于 CIFAR数据集的分辨率太低以及 MixMatch 方法仅在 CIFAR 数据集上进行评估，因此该方法在高分辨率的数据集上的效果有待评估。

　　获取大量的标签数据集是一个昂贵且费时的过程，然而获取无标签的原始数据集是一个相对容易的事情。而半监督数据增广方法能够将无标签的数据集利用起来提升模型的性能。因此，半监督数据增广是图像增广的一个重要研究方向。

　　5 虚拟图像增广

　　虚拟图像生成增广是通过生成模型(主要以生成对抗网络为主)直接生成图像样本，并将生成的样本加入到训练集中，从而达到数据集增广的目标。使用 I′= G(Z,y) 表示以噪声信号 Z 为种子，通过模型 G(∙) 生成标签为 y 的虚拟样本。虚拟图像生成增广通常使用生成对抗网络及其衍生网络作为图像样本的生成模型。

　　Goodfellow 等学者[58] 提出生成对抗网络的模式，让网络模型之间通过对抗学习的方式不断地提升生成网络的生成质量和判别网络的判别能力，随即掀起了一股对抗学习的热潮。后续 GANs 模型的改善主要是为了解决对抗学习过程中存在的模式坍塌和训练困难的问题。

　　5.1 GANs的虚拟图像增广

　　方法研究[62,104] 表明 GANs 是一种有效的无监督的图像数据增广方法。基于 GANs 的图像增广是使用 GANs 及其衍生模型作为工具在已有数据集上产生更丰富的图像样本，以此达到丰富训练数据样本提升应用模型在测试集性能的目标。

　　5.1.1 朴素生成对抗网络

　　将 Goodfellow 等学者[58] 提出的生成对抗模型称为朴素生成对抗网络。该模型首次将两个相互对抗的图像样本生成网络和真假鉴别网络融合在同一个模型，使用异步训练的方式相互提高两个模型的性能。使用图 17(a)来描述朴素生成对抗网络的模型。

　　5.1.2 条件生成对抗网络

　　由于朴素生成对抗网络[58] 缺少外部类别信息作为指导，训练过程非常困难，为了给生成器和判别器添加额外信息加快收敛速度，条件生成对抗网络技术(conditional generative adversarial networks，CGANs)[105] 在生成器的输入端将待生成样本的类别信息作为监督信号传入到生成模型中作为约束，如图 17(b)所示。可以根据输入的条件信息生成符合条件的图像样本，尤其适合在图像增广方面应用[106] 。

　　5.1.3 辅助分类条件对抗网络

　　为了能够提供更多的辅助信息进行半监督训练，Odena等学者提出在条件生成对抗网络的判别器中加入一个额外分类任务，便于在训练过程中利用原始任务以及分类任务的优化对模型进行调优，这个方法称为分类辅助生成对抗网络(auxiliary classifier generative adversarial networks，ACGAN)[107] 。

　　在 ACGAN 中，除了随机噪声图像 Z 外，每个生成的样本具有对应的标签。生成器 G 同时接受噪声图像 Z 和待生成的样本的标签 C ，产生虚拟图像 Xfake = G(C,Z) 。判别器接收真实图像样本 Xreal 和虚拟图像样本 Xfake 的数据分布，判断出样本是否为真,如果为真则预测出该样本的类别。ACGAN 的模式可以简化描述为图 17(c)，额外的分类任务的加入可以生成更加清晰的图像并且加入辅助分类器有效缓解了模型崩塌问题。实验结果表明 ACGAN 在 CIFAR10数据集上分类准确性达到同期研究的最好效果。

　　由于 ACGAN 图像增广的研究框架的适用性， ACGAN被应用到多个领域的视觉处理任务相关研究中。例如：Mariani 等学者为了解决图像分类中数据集标签不平衡的问题提出了数据平衡生成对抗网络(balancing generative adversarial networks，BAGAN)[108] 。作者以 ACGAN 为基础，将 ACGAN 中的“真假”输出和“类别”输出合成为一个输出，解决了在训练过程中遇到少数类时两个损失函数相互冲突的问题。实验结果表明BAGAN在MNIST、CIFAR-10、Flowers和 GTSRB 四个数据集中，分类准确性表现比 ACGAN 更优秀。

　　Huang等学者[109] 基于 ACGAN 模型提出了 ActorCritic GAN 解决图像分类应用在中类内数据不平衡的问题。使用 ACGAN 模型对类内不平衡的样本进行有差别的增广，扩大类内图像的差异性。实验结果表明相比原始图像,作者的方案能提高大约 2 个百分点的准确率。

　　Singh等学者提出基于 ACGAN 模型的恶意软件图像增广框架(malware image synthesis using GANs， MIGAN)[110] 。作者使用MIGAN解决了在恶意软件分析过程中带标签的恶意软件图像数据缺乏的问题。——论文作者：林成创 1,4,5 ，单纯 2 ，赵淦森 1,4,5+ ，杨志荣 3 ，彭璟 1,4,5 ，陈少洁 1,4,5 ，黄润桦 1,4,5 ，李壮伟 1,4,5 ，易序晟 1,4,5 ，杜嘉华2 ，李双印1,4,5 ，罗浩宇1,4,5 ，樊小毛1,4,5 ，陈冰川6+

您身边的学术顾问

机器视觉应用中的图像数据增广综述