机器视觉技术研究进展及展望-期刊天空网手机端

　　摘要：机器视觉是建立在计算机视觉理论工程化基础上的一门学科，涉及到光学成像、视觉信息处理、人工智能以及机电一体化等相关技术。随着我国制造业的转型升级与相关研究的不断深入，机器视觉技术凭借其精度高、实时性强、自动化与智能化程度高等优点，成为了提升机器人智能化的重要驱动力之一，并被广泛应用于工业生产、农业以及军事等各个领域。在广泛查阅相关文献之后，针对近十多年来机器视觉相关技术的发展与应用进行分析与总结，旨在为研究学者与工程应用人员提供参考。首先，总结了机器视觉技术的发展历程、国内外的机器视觉发展现状;其次，重点分析了机器视觉系统的核心组成部件、常用视觉处理算法以及当前主流的机器视觉工业软件;然后，介绍了机器视觉技术在产品瑕疵检测、智能视频监控分析、自动驾驶与辅助驾驶与医疗影像诊断等 4 个典型领域的应用;最后分析了当前机器视觉技术所面临的挑战，并对其未来的发展趋势进行了展望，为机器视觉技术的发展和应用推广发挥积极作用。

机器视觉技术研究进展及展望

　　关键词：机器视觉;成像系统;视觉处理算法;视觉软件;挑战与发展趋势

　　近年来，随着现代制造业产业结构调整和转型升级的不断深入，越来越多企业开始施行“机器换人”，使得机器人在汽车、物流、航空航天、船舶乃至食品等领域得到了越来越广泛的应用，并带动了相关产业的发展。机器人是一种集机械、传感、识别、决策与控制等多种先进技术于一身，并具有部分智能能力的自动化设备或装置[1]，被称为“制造业皇冠顶端的明珠”，世界各国对其发展的重视程度与日俱增。机器人技术及其应用已成为当今科技和产业发展的“必争之地”，具有重要的战略意义。

　　作为机器人的“眼睛”，机器视觉系统是一种借助光学装置和非接触的传感器获得被检测物体的特征图像，并通过计算机从图像中提取信息，进行分析处理，进而实现检测和控制的装置。机器视觉系统具有实时性好、定位精度高等优点，能有效地增加机器人的灵活性与智能化程度[2]，是实现工业自动化和智能化的重要手段之一。随着各类技术的不断完善，以及制造产业中高质量产品的需求增多，机器视觉从最开始主要用于工业电子装配缺陷检测[3-4]，已逐步应用到汽车制造[5]、食品监控[6-7]、视觉导航[8-9]、交通[10-11]、军事[12]、纺织加工[13]等多个领域[14-15]，市场规模不断扩大。因此，研究机器视觉相关技术对提升工业智能机器人的产业发展具有重要意义。

　　本文主要对机器视觉的发展历史、研究现状、相关核心技术及其应用进行总结与分析，并对未来发展趋势做出展望。

　　1 机器视觉发展现状

　　1.1 机器视觉发展史

　　机器视觉是建立在计算机视觉理论工程化基础上的一门学科，涉及到光学成像、视觉信息处理、人工智能以及机电一体化等相关技术[16]，经历了从二维到三维的演化过程。机器视觉发展于 20 世纪 50 年代对二维图像识别与理解的研究，包括字符识别、工件表面缺陷检测、航空图像解译等。60 年代，麻省理工学院 ROBERTS[17]提出了利用物体的二维图像来恢复出诸如立方体等物体的三维模型(如弹簧模型与广义圆柱体模型等)以及建立空间关系描述，开辟了面向三维场景理解的立体视觉研究。70 年代麻省理工学院 MARR[18]创立系统化的视觉信息处理理论，指出人类视觉从三维场景中提取对观测者有用信息的过程需要经过多层次的处理，并且这种处理过程可以用计算的方式重现，从而奠定了计算机视觉理论化和模式化的基础。此后，计算机视觉技术在 80 年代进入了最蓬勃发展的时期，主动视觉等新的概念、方法与理论不断涌现。与此同时，随着 CCD 图像传感器、CPU 与 DSP 等硬件与图像处理技术的飞速发展[19]，计算机视觉逐步从实验室理论研究转向工业领域的相关技术应用，从而产生了机器视觉。由于具有实时性好、定位精度与智能化程度高等特点，机器视觉已经在智能汽车[9]、电子[20-21]、医药[22]、食品[23-24]、农业等领域得到了广泛的应用[25-27]，如占机器视觉市场需求 40%~50%的半导体制造行业，从上游的晶圆加工切割到高精度 PCB 定位、从 SMT 元件放置到表面缺陷检测等都依赖高精度的机器视觉引导与定位。

　　1.2 国外机器视觉现状

　　机器视觉早期发展于欧美和日本等国家，并诞生了许多著名的机器视觉相关产业公司，包括光源供应商日本 Moritex;镜头厂家美国 Navitar、德国 Schneider、德国 Zeiss、日本 Computar 等;工业相机厂家德国 AVT、美国 DALSA、日本 JAI、德国Basler、瑞士 AOS、德国 Optronis;视觉分析软件厂家德国 MVTec、美国康耐视(Cognex)、加拿大 Adept 等，以及传感器厂家日本松下(Panasonic)与基恩士(Keyence)、德国西门子、欧姆龙(Omron)、迈思肯(Microscan)等。尽管近 10 年来全球产业向中国转移，但欧美等发达国家在机器视觉相关技术上仍处于统治地位，其中美国 Cognex 与日本 Keyence 几乎垄断了全球 50%以上的市场份额，全球机器视觉行业呈现两强对峙状态。在诸如德国工业 4.0 战略、美国再工业化和工业互联网战略、日本机器人新战略、欧盟“火花”计划等战略与计划以及相关政策的支持下，发达国家与地区的机器视觉技术创新势头高昂，进一步扩大了国际机器视觉市场的规模。如图 1 所示，至 2018 年，机器视觉系统的全球市场规模接近 80 亿美元，年均增长率超过15.0%。世界最大的机器视觉市场——德国市场，其规模为 27.1 亿美元，占比超过全球总量的三分之一。

　　1.3 国内机器视觉现状

　　相比发达国家，我国直到 90 年代初才有少数的视觉技术公司成立，相关视觉产品主要包括多媒体处理、表面缺陷检测以及车牌识别等。但由于市场需求不大，同时产品本身存在软硬件功能单一、可靠性较差等问题，直到 1998 年开始，我国机器视觉才逐步发展起来，其发展经历了启蒙、发展初期、发展中期和高速发展等阶段[28]。

　　机器视觉启蒙阶段：自 1998 年开始，随着外资大量的电子相关企业在大陆投资建厂，企业迫切需要得到大量机器视觉相关技术的支持，一些自动化公司开始依托国外视觉软硬件产品搭建简单专用的视觉应用系统，并不断地引导和加强中国客户对机器视觉技术和产品的理解和认知，让更多相关产业人员展现视觉技术带给自动化产业的独特价值和广泛应用前景，从而逐步带动机器视觉在电子、特种印刷等行业的广泛应用[29]。

　　机器视觉发展初期阶段：从 2002 年到 2007 年期间，越来越多的企业开始针对各自的需求寻找基于机器视觉的解决方案，以及探索与研发具有自主知识产权的机器视觉软硬件设备，在 USB2.0 接口的相机和采集卡等器件方面，逐渐占据了入门级市场;同时在诸如检测与定位、计数[30]、表面缺陷检测[31]等应用与系统集成方面取得了关键性突破。随着国外生产线向国内转移以及人们日益增长的产品品质需求，国内很多传统产业如棉纺[32- 33]、农作物分级[34-35]、焊接[36]等行业开始尝试用视觉技术取代人工来提升质量和效率。

　　机器视觉发展中期阶段：从 2008 年到 2012 年期间，出现了许多从事工业相机、镜头、光源到图像处理软件等核心产品研发的厂商，大量中国制造的产品步入市场。相关企业的机器视觉产品设计、开发与应用能力，在不断实践中也得到了提升。同时，机器视觉在农业[37]、制药[38]、烟草[39]等多行业得到深度广泛地应用，培养了一大批系统级相关技术人员。

　　机器视觉高速发展阶段：近年来，我国先后出台了促进智能制造、智能机器人视觉系统以及智能检测发展的政策文件，《中国制造 2025》提出实施制造强国，推动中国到 2025 年基本实现工业化，迈入制造强国行列;《高端智能再制造行动计划 (2018—2020 年)》提出中国智能检测技术在 2020 年要达到国际先进水平。得益于相关政策的扶持和引导，我国机器视觉行业的投入与产出显著增长，市场规模快速扩大。据高工产业机器人研究所 (GGII)统计，2017 年中国机器视觉市场规模达到 70 亿元，同比增速超 25%，高于其他细分领域增速，如图 2 所示，预计到 2020 年市场规模将超过 120 亿元。同时我国机器视觉正逐渐向多领域、多行业、多层次应用延伸，目前我国机器视觉企业已超 100 余家，如凌华科技、大恒图像、商汤、旷视、云从科技等;机器视觉相关产品代理商超过 200 家，如广州嘉铭工业、微视图像等;系统集成商超过 50 家，如大恒图像、凌云光子等，产品涵盖从成像到视觉处理与控制整个产业链，总体上视觉应用呈现百花齐放的旺盛状态。

　　然而，尽管目前我国机器视觉产业取得了飞速发展，但总体来说，大型跨国公司占据了行业价值链的顶端，拥有较为稳定的市场份额和利润水平;我国机器视觉公司规模较小，如作为中国机器视觉系统的最大供应商，大恒新纪元科技只占有 1.4% 的全球市场份额;与美国 Cognex、日本 Keyence 等大企业相比，许多基础技术和器件，如图像传感器芯片、高端镜头等仍全部依赖进口，国内企业主要以产品代理、系统集成、设备制造、以及上层二次应用开发为主，底层开发商较少，产品创新性不强，处于中低端市场，利润水平偏低。

　　2 机器视觉组成与关键技术

　　一般来说，机器视觉系统包括光学照明、成像系统、视觉信息处理等关键组成部分[40]。

　　2.1 照明系统

　　照明系统的作用主要是将外部光以合适的方式照射到被测目标物体以突出图像的特定特征，并抑制外部干扰等，从而实现图像中目标与背景的最佳分离，提高系统检测精度与运行效率。由于影响照明系统的因素复杂多变，目前没有普适的机器视觉照明方案，往往需要针对具体的应用环境，并考虑待检测目标与背景的光反射与传输特性区别、距离等因素选择合适的光源类型、照射方式及光源颜色[41]来设计具体的照明方案，以达到目标与背景的最佳分割效果。

　　机器视觉光源主要包括卤素灯、荧光灯、氙灯、 LED、激光、红外、X 射线等。其中，卤素灯和氙灯具有宽的频谱范围和高能量，但属于热辐射光源，发热多，功耗相对较高;荧光灯属于气体放电光源，发热相对较低，调色范围较宽，而 LED 发光是半导体内部的电子迁移，产生的发光，属于固态电光源，发光过程不产生热，具有功耗低、寿命长、发热少、可以做成不同外形等优点，LED 光源已成为了机器视觉的首选光源。而红外光源与 X 射线光源应用领域较为单一;各种光源性能对比见表 1[41]。

　　从光源形状角度分类，照明光源可分为条形、穹形、环形、同轴以及定制等光源。从光源照射方式上分，照明系统可分为明/暗场、前向、侧向、背向、结构光、多角度照射与频闪照明等[40,42]。其中，明场照明的光源位置较高，使得大部分光线反射后进入了相机;反之，暗场照明采用低角度照射方式使得光线反射后不能进入照相机，以提高对表面凹凸表现能力，暗场照明常用于光滑面板如手机壳、玻璃基片等表面划痕检查;背向照明是被测物置于光源和相机之间以获取较高对比度的图像，常用于分析物体的轮廓或透明物体内的异物[38];多角度照射则采用不同角度光照方式，以提取三维信息，如电路板焊接缺陷检测往往采用多角度照射的 AOI 光源来提高成像质量[4]。而结构光照明是将激光或投影仪产生的光栅投射到被测物表面上，然后根据投影图案产生的畸变程度来重建出物体的三维信息。

　　此外，光源颜色会对图像对比度产生显著影响，一般来说，波长越短，穿透性就越强，反之则扩散性越好。因此光源选择需要考虑光源波长特性，如红色光源多用于半透明等物体检测，表 2 给出了不同颜色光源的特点对比及其应用场景[43-44]。如 VRIESENGA 等[45]利用控制光源的颜色来改善图像的对比度。同时，光源旋转需要考虑光源与物体的色相性，通过选择色环上相对应的互补颜色来提高目标与背景间的颜色对比度[41-42]，互补色环图如图 3 所示。因此，在实际应用中，需考虑光源与物体颜色相关性，选择合适的光源来过滤掉干扰，如对于某特定颜色的背景，常采用与背景颜色相近光源来提高背景的亮度，以改善图像对比度[43-44]。

　　2.2 成像系统

　　成像系统是机器人视觉感知系统中的“视”部分，采用镜头、工业相机与图像采集卡等相关设备获取被观测目标的高质量图像，并传送到专用图像处理系统进行处理。

　　相关知识推荐：计算机视觉图像处理论文怎么发表ei期刊

　　镜头相当于人眼睛的晶状体，其作用是将来自目标的光辐射聚焦在相机芯片的光敏面阵上。镜头按照等效焦距可分为广角镜头、中焦距镜头、长焦距镜头;按功能可分为变焦距镜头、定焦距镜头、定光圈镜头等。镜头的质量直接影响到获取图像的清晰度、畸变程度等，若成像系统获取的图像信息存在严重损失，往往在后面的环节中难以恢复，因此合理选择镜头是机器视觉中成像光路设计的重要环节。

　　镜头选择时需要考虑镜头焦距、视野、工作距离、畸变[46]、杂散光抑制等因素，选取合适的焦距保证被摄物成像的具有合适的大小，并且成像畸变小。

　　工业相机是将光辐射转变成模拟/数字信号的设备，通常包括光电转换、外围电路、图像输出接口等部件。按数据传送的方式不同，相机可以分为 CCD 相机与 CMOS 相机 2 类，其中，CCD 成像质量好，但制造工艺相对复杂，成本较高，而 CMOS 电源消耗量低，数据读取快。按照传感器的结构特性不同，工业相机可分为面阵式与线阵式 2 类。面阵相机可以一次获得整幅图像，测量图像直观，其应用面较广，但由于生产技术的制约，单个面阵很难满足工业连续成像的要求。线阵相机每次成像只能获得一行图像信息，因此需要保证被拍摄物体相对相机直线移动，逐次扫描获得完整的图像。线阵相机具有分辨率高等特点，常用于条状、筒状如布匹、钢板、纸张等检测。由于逐次扫描需要进行相对直线移动，成像系统复杂性和成本有所增加。

　　相机选择需要考虑光电转换器件模式、响应速度、视野范围、系统精度等因素。此外，由于工业设计的需求，当使用工业模拟相机时必须采用图像采集卡将采集的信号转换为数字图像进行传输存储。因此，图像采集卡需要与相机协调工作来实时完成图像数据的高速采集与读取等任务，针对不同类型的相机，有 USB，PCI，PCI64，ISA 等不同的总线形式的图像采集卡。

　　2.3 视觉信息处理

　　视觉信息处理充当了机器视觉的“大脑”部分，对相机采集的图像进行处理分析实现对特定目标的检测、分析与识别，并做出相应决策，是机器视觉系统的“觉”部分。视觉信息处理一般包括图像预处理、图像定位与分割、特征提取、模式分类、语义理解等层次[3]。

　　2.3.1 图像预处理图像预处理

　　部分主要借助相机标定、去噪、增强、配准与拼接、融合等操作来提高图像质量、降低后续处理难度。相机标定旨在求解相机的内参 (焦距，畸变系数)和外参(旋转矩阵和平移向量)以提供物体表面某点的三维几何位置与其在图像中对应点之间精确坐标关系，标定精度高低直接影响到机器视觉定位的精度[47-48]。常用标定方法包括张正友标定法[49]、自标定法[48]等。同时，由于各种电磁等干扰，获取的图像常含有椒盐、高斯等多种噪声，对比度低，并存在运动模糊等现象，因此需要对图像去噪或结构增强以改善图像质量。其中，去噪方法一般可分为空间域与变换域去噪 2 大类[50]，而主流的图像增强方法包含直方图均衡化、图像锐化、视觉模型增强、运动模糊去除等方法。同时，由于视野范围限制、成像模式的不同，需要对生产线上不同位置获取的多模或同模态图像进行配准，再实现多幅图像拼接或融合处理。图像配准一般分为基于图像灰度的配准方法与基于图像特征的配准方法[51-52]。基于灰度的配准方法直接采用归一化的互相关、互信息等相似性度量函数来计算图像灰度值之间的相似性，并确定图像间的配准参数，此类方法简单、配准精度高，但对图像灰度变化、旋转、变形以及遮挡比较敏感，计算复杂度高、往往需要采用各种优化策略。基于特征的配准方法首先从图像提取各种点、线、区域等特征，然后进行空间约束或不变特征匹配得到特征间的匹配关系，进而估计出图像之间变换关系。此类方法计算速度快，但依赖特征的提取。由于在配准过程中，需要搜索多维空间，机器视觉系统常采用金字塔、小波方法以及各种优化策略来减小配准计算量。在图像配准的基础上，有些工业生产线需对多源图像进行融合，保证可以尽量地提取有用信息，并去除冗余或干扰信息，在较少的计算代价的前提下高效利用图像资源，并改善计算机解译精度和可靠性[53]。根据图像表征层次的不同，图像融合可分为像素级融合[54]、特征级融合和决策级融合[35,55-56] 3 个层次的融合，通过融合技术可以提高视觉目标检测的识别与抗干扰能力。

　　2.3.2 图像定位与分割

　　图像定位与分割主要利用目标边界、几何形状等先验特征或知识确定待检测目标的位置或从图像中分割出目标，是确定目标位置、大小、方向等信息的重要手段。

　　图像定位利用图像灰度或特征信息来确定图像中被检测物体的位置、大小及旋转角度等，主要采用模板匹配方法实现[57-58]，即通过计算模板图像 (通常是被检测物体图像)和待搜索图像的相似性度量，然后寻找相似性度量值最大或最小对应的匹配位置即是目标位置。模板匹配具有速度快、定位精度高、简单等优点[59]，在视觉定位与引导中得到了广泛应用。由于需要给定待检测物体的图像，因此模板匹配定位方法只适用于背景简单、特征固定的物体，难以用于不规则形状物体的定位。

　　图像分割是根据目标及背景特性将图像划分为多个具有独特属性的非重叠区域，进而确定目标位置、区域大小。图像分割方法一般可以分为：

　　(1) 阈值分割方法。首先对图像像素灰度分布特性进行分析，然后采用先验知识或 Otsu[60]等方法确定最优灰度阈值将图像分割 2 个或多个局部区域。该方法简单高效，适用于待检测目标与背景具有明显差异的情况。

　　(2) 区域分割方法。利用区域内图像特征(如颜色、纹理等)具有均匀性或相似性将像素集合起来实现图像分割，包括区域生长[61]、分裂合并、分水岭[62]等算法。此类方法能够处理较为复杂图像，但计算量大，而且种子点的选取与迭代终止条件的设定容易影响分割结果，甚至可能会破坏区域边界。

　　(3) 基于边缘的分割方法[63]。该方法利用不同图像区域在边界处有明显灰度跳变或不连续，找到目标区域的边缘来实现图像分割。由于不连续性常通过求导数来实现，因此该类方法适用于噪声比较小的图像，尤其是二阶微分算子对噪声十分敏感。

　　(4) 基于图的分割方法。借助图论的思想，将待分割图像转换为带权无向图，其中每一个像素即为图中的一个节点，将图像分割问题转化为图顶点的标注问题，再利用最小优化准则如图割[64]、随机游走[65]等实现图像的最佳分割[66]。该方法可以较好地分割图像，但计算复杂度高。

　　(5) 基于神经网络的语义分割方法[67]。模拟人类感知过程，采用如脉冲耦合神经网络等方法[68] 来处理复杂的非线性问题。近年来，深度学习技术在图像语义分割领域得到了深入研究，提出了如 FCN[69]，DeepLab[70]，Mask R-CNN[71]，U-Net[72] 等分割算法，并在自动驾驶[71]、影像诊断[72]等领域得到应用。该类方法适应性较强，能够对被分割区域分配不同的标签，但存在学习过程复杂，计算量大等缺点。

　　2.3.3 图像特征提取

　　图像识别是先提取形状、面积、灰度、纹理等特征[73-74]，然后借助模式识别等方法如模式匹配[57]、支持向量机、深度学习[75]等来实现目标分类、缺陷检测等功能，满足工业机器视觉不同的应用需求。因此，图像特征提取很大程度上影响图像识别结果。

　　图像特征提取可看作为从图像中提取关键有用低维特征信息的过程，以使获取的低维特征向量能够有效的描述目标，并保证同类目标具有较小的类内距而不同类目标具有较大的类间距。高效的特征提取可提高后续目标识别精度与鲁棒性，降低计算复杂度。常用的二维图像特征包括有形状特征、纹理特征、颜色特征等。

　　(1) 纹理特征[76-77]。描述物体表面结构排列以及重复出现的局部模式，即物体表面的同质性，不依赖于颜色或亮度，具有局部性与全局性，对旋转与噪声不敏感。纹理特征提取方法包括有统计法如灰度共生矩阵[78]、局部二值模式(LBP)[79]、Gabor 滤波器[80]、小波变换[81]等。

　　(2) 形状特征。根据仅提取轮廓或整个形状区域的不同，形状特征可细分为轮廓形状[82]与区域形状 2 类[83-84]。

　　轮廓形状是对目标区域的包围边界进行描述，其描述方法包括有边界特征法、简单几何特征、基于变换域(如傅里叶描述子[85]、小波描述子)、曲率尺度空间(CSS)[86]、霍夫变换[87]等方法。轮廓特征描述量小，但包含信息较多，能有效地减少计算量;但轮廓特征对于噪声和形变敏感，常难以提取完整的轮廓信息。

　　区域形状特征是针对目标轮廓所包围的区域中的所有像素灰度值或对应的梯度加以描述，主要有几何特征(如面积、质心、分散度等)、拓扑结构特征(如欧拉数[88])、矩特征(如 Hu 不变矩[89]、 Zernike 矩[90-91])、梯度分布特征(如 HOG[92]、 SIFT[93]等)。

　　(3) 颜色特征[94]。用于描述图像所对应景物的外观属性，是人类感知和区分不同物体的基本视觉特征之一，其颜色对图像平移、旋转与尺度变化具有较强的鲁棒性。颜色空间模型主要有 HSV[94]， RGB，HSI，CHL，LAB，CMY 等。常用的颜色特征的表征方法包括有颜色直方图[91,95]、颜色相关图[96]、颜色矩[97]、颜色聚合向量[98]等。

　　2.3.4 模式分类

　　模式分类本质上是通过构造一个多分类器，将从数据集中提取的图像特征映射到某一个给定的类别中，从而实现目标分类与识别。分类器的构造性能直接影响到其识别的整体效率，也是模式识别的研究核心。模式分类可分为统计模式识别、结构模式识别、神经网络以及深度学习等主要方法，对比情况见表 3。

　　统计模式识别结合了统计概率的贝叶斯决策理论以对模式进行统计分类，其主要方法有贝叶斯[99]、 Fisher 分类器[100]、支持向量机[91]、Boosting[101]等，统计模式识别理论完善，并取得了不少应用成果，但很少利用模式本身的结构关系。结构模式识别 (又称句法模式识别)首先将一个模式分解为多个较简单的子模式，分别识别子模式，最终利用模式与子模式分层结构的树状信息完成最终识别工作。结构模式识别理论最早用于汉字识别，能有效区分相似汉字，对字体变化的适应性强，但抗干扰能力差。因此，很多情况下往往同时结合统计模式和句法模式识别来解决具体问题。

　　神经网络是一种模仿动物神经网络进行分布式并行信息处理机理的数学模型，其通过调整内部大量节点之间相互连接关系来实现信息并行处理。目前神经网络又可进一步分为 BP 神经网络、 Hopfield 网络与 ART 网络等。神经网络具有很强的非自线性拟合，记忆以及自学习能力，学习规则简单，便于计算机实现。因此得到了广泛的应用[102-104]。但神经网络具有学习速度慢，容易陷入局部极值以及求解时会遇到梯度消失或者梯度爆炸等缺点。

　　2006 年，HINTON 和 SALAKHUTDINOV[105] 提出了一种基于无监督的深度置信网络，解决了深度神经网络训练的难题，掀起了深度学习的浪潮，先后涌现了包括稀疏自编码器[106]、受限玻尔兹曼机、卷积神经网络[107]、循环神经网络、深度生成式对抗网络[108]等模型。与传统的机器学习相比，深度学习提倡采用端到端的方式来解决问题，即直接将图像特征提取与模式分类集合在一起，然后根据具体的模式分类目标损失函数(如交叉熵损失、Hinge 损失函数等)从数据中自动地学习到有效的特征[109]并实现模式分类，学习能力强。因此深度学习在在计算机视觉[110]、语音识别[111]、字符识别[112]、交通[113]、农业[6,114]、表面缺陷检测[75,115] 等领域取得了巨大成功。深度学习也存在缺少完善的理论支持、模型正确性验证复杂且麻烦、需要大量训练样本、计算量大等问题。相信随着深度学习研究的不断深入，将为机器视觉带来更广阔的发展空间。——论文作者：朱云，凌志刚，张雨强

您身边的学术顾问

机器视觉技术研究进展及展望