当前位置:首页 > 新型工业化 >主流的机器视觉技术又有哪些呢(主流的机器视觉技术又有哪些呢英语)

主流的机器视觉技术又有哪些呢(主流的机器视觉技术又有哪些呢英语)

简介:视觉是人类最敏感、最直接的感知方式。视觉感知使我们无需实际接触即可获得有关周围环境的大量信息。由于生物视觉系统非常复杂,目前还不可能让机器系统完全具备这种强大的视觉感知能力。

目前,机器视觉的目标是构建一个在受控环境中处理特定任务的机器视觉系统。由于工业中的视觉环境是可控的,且处理任务是特定的,所以现在大多数机器视觉都在工业中使用。

主流的机器视觉技术又有哪些呢(主流的机器视觉技术又有哪些呢英语)

人类的视觉感知是通过眼睛视网膜的视锥细胞和视杆细胞捕捉光源,然后通过神经纤维将信号传输到大脑的视觉皮层,形成我们看到的图像,但机器视觉不会。机器视觉系统的输入是图像,输出是这些图像的感知描述。这组描述与这些图像中的物体或场景密切相关,这些描述可以帮助机器完成特定的后续任务,并指导机器人系统与周围环境进行交互。

那么,目前主流的机器视觉技术有哪些呢?

支柱

卷积神经网络

卷积神经网络是目前计算机视觉中最常用的模型结构。引入卷积神经网络进行特征提取,不仅可以提取相邻像素之间的特征模式,而且可以保证参数数量不随图像尺寸的变化而变化。上图是一个典型的卷积神经网络结构。多层卷积层和池化层结合在输入图像上。在网络的末端,通常会添加一系列全连接层。 ReLU激活函数通常添加到卷积层或全连接层中。在连接层的输出上,通常会在网络中添加Dropout,以防止过拟合。

自2012年AlexNet在ImageNet竞赛中获得冠军以来,卷积神经网络逐渐取代传统算法,成为处理计算机视觉任务的核心。

过去几年,研究人员通过提高特征提取能力、改善返回梯度更新效果、缩短训练时间、可视化内部结构、减少网络参数量、轻量化模型、自动设计网络结构等,在卷积神经网络方面取得了长足进步。结构得到大幅提升,推出了AlexNet、ZFNet、VGG、NIN、GoogLeNet和Inception系列、ResNet、WRN和DenseNet等一系列经典模型,以及MobileNet系列、ShuffleNet系列、SqueezeNet和Xception等轻量级模型逐渐发展起来。

卷积网络示意图

经典模型(AlexNet):

AlexNet是第一个深度神经网络,其主要特点包括:

1.使用ReLU作为激活函数。

2.建议在全连接层使用Dropout,避免过拟合。注:BN提出时,Dropout被BN取代。

3、由于GPU显存太小,所以使用了两个GPU,方法是对通道进行分组。

4、利用局部响应归一化(LRN),生物学中存在侧向抑制现象,即激活的神经元会抑制周围的神经元。这里的目的是让局部响应值相对较大,抑制其他响应值相对较小的卷积核。例如,如果某个特征在这个卷积核中的响应值比较大,那么其他相邻卷积核中的响应值就会受到抑制,从而使得卷积核之间的相关性变小。 LRN 与ReLU 相结合将模型改进了一个百分点多一点。

5. 使用重叠池。作者认为,使用重叠池化会增加特征的丰富度,并且相对来说会更难拟合。

杰作(ResNet):

一般来说,网络越深、越宽,特征提取能力就越好。但当网络达到一定层数时,随着层数的增加,精度会下降,网络收敛速度也会变慢。

传统的卷积网络在前向过程中每层只有一个连接,而ResNet 添加了残差连接以增加从一层到下一层的信息流。 FractalNet 将多个并行层序列与不同数量的卷积块重复组合,增加标称深度,同时保持网络的前向传播路径较短。类似的操作包括随机深度和高速公路网络。这些模型都表现出一个共同的特点,缩短前层和后层之间的路径,其主要目的是增加不同层之间的信息流动。

后起之秀

变形金刚

Transformer 是一种自注意力模型架构,在2017 年之后在NLP 领域取得了巨大成功,尤其是机器翻译和文本生成等序列到序列(seq2seq)任务。 2020年,Google提出了纯Transformer结构ViT,在ImageNet分类任务上取得了与CNN相当的性能。此后,大量ViT衍生的Transformer架构在ImageNet上取得了成功。

与CNN相比,Transformer的优势在于它具有较少的归纳性和先验性质,因此可以将其视为针对不同学习任务的通用计算原语。参数效率和性能增益与CNN相当。但缺点是在预训练时,对大数据机制的依赖性较强,因为Transformer没有像CNN那样具有明确定义的归纳先验。因此,一个新的趋势正在出现:当self-attention 与CNN 结合时,它们建立了强大的基线(BoTNet)。

Vision Transformer(ViT)直接将纯Transformer架构应用到一系列图像块上进行分类任务,并且可以取得优异的结果。它在许多图像分类任务上也优于最先进的卷积网络,同时需要的预训练计算资源显着减少。

DETR 是第一个成功使用Transformer 作为管道中主要构建块的对象检测框架。它与之前的SOTA 方法(高度优化的Faster R-CNN)的性能相匹配,并具有更简单、更灵活的管道。

Transformer的变体模型是当前的研究热点,主要分为以下几种:1)模型轻量级; 2)加强跨模块连接; 3)自适应计算时间; 4)引入分而治之的策略; 4) 循环变压器; 5)分层变压器。

欺骗机器的眼睛

对抗性例子

最近引起研究界关注的一个问题是这些系统对对抗性例子的敏感性。一个对抗性的例子是一张噪声图像,旨在欺骗系统做出错误的预测。为了将这些系统部署在现实世界中,它们必须能够检测这些示例。为此,最近的工作探索了通过在训练期间包含对抗性示例来增强这些系统抵御对抗性攻击的可能性。

现阶段模型攻击主要分为两类,即攻击训练阶段和推理阶段。

训练阶段的攻击

训练阶段(Training in Adversarial Settings)的主要攻击方法是对模型的参数进行小扰动,从而达到模型性能偏离预期的目的。例如,通过直接替换训练数据的标签,使数据样本和标签不对应,最终的训练结果必然与预期不同,或者通过在线获取训练数据的输入权限,操纵恶意数据来控制线上的训练过程如果受到扰动,最终的结果就是输出偏离预期。

推理阶段攻击

推理阶段(Inference in Adversarial Settings)的攻击是,训练出一个模型后,可以主观上将模型视为一个盒子。如果盒子对我们来说是透明的,则可以视为“白盒”模型,否则视为“黑盒”模型。所谓“白盒攻击”是指我们需要知道模型的所有内容参数,但是这在实际操作中不太现实,但是有可能,所以我们需要有这个前提,黑盒攻击更符合现实场景:通过输入和输出猜测模型的内部结构;添加稍大的扰动对模型进行攻击;构建影子模型进行关联方攻击;提取敏感数据进行模型训练;模型逆参数等。

针对攻击的防御机制。为了抵御对抗性样本攻击,主要是引入辅助分块模型(AuxBlocks)根据附加信息进行附加输出作为自我集成的防御机制。这种机制尤其在针对攻击者的黑盒攻击和白盒攻击时效果很好。此外,防御蒸馏还可以提供一定的防御能力。防御蒸馏是一种将训练好的模型迁移到结构更简单的网络中,以达到防御对抗性攻击的效果的方法。

对抗性学习的应用示例: 1. 自动驾驶; 2. 财务欺诈。

自动驾驶是未来智能交通的发展方向,但在其安全性得到充分测试之前,人们很难信任这项复杂的技术。尽管许多车企和科技公司在该领域进行了很多实验,但对抗性样本技术对于自动驾驶来说仍然是一个巨大的挑战。几个攻击示例:对抗性攻击下图片中的行人在模型面前是看不见的,对抗性样本使模型“忽略”路障;当使用AI对抗样本生成特定图像并对其进行干扰时,特斯拉的Autopilot系统输出“错误”识别结果,导致车辆雨刷器启动;在道路上的特定位置贴上几个对抗性样本贴纸,可以让自动驾驶模式下的汽车并入反向车道;在Autopilot系统中,车辆的行驶方向是通过游戏控制器控制来确定的;对抗性示例使行人对机器学习模型“隐形”。

自学也能让你成才

自我监督学习

深度学习需要干净的标记数据,这对于许多应用程序来说很难获得。注释大量数据需要大量的人力,既耗时又昂贵。此外,现实世界中的数据分布不断变化,这意味着模型必须不断针对变化的数据进行训练。自监督方法通过使用大量原始未标记数据来训练模型来解决其中一些挑战。在这种情况下,监督是由数据本身(而不是人类注释)提供的,目标是完成间接任务。间接任务通常是启发式的(例如,旋转预测),其中输入和输出都来自未标记的数据。定义间接任务的目标是使模型能够学习随后可以在下游任务中使用的相关特征(通常带有一些可用的注释)。

自监督学习是一种数据高效的学习范式。监督学习方法教导模型擅长特定任务。另一方面,自监督学习允许学习一般表示,这些表示不是专门用于解决特定任务,而是为各种下游任务封装更丰富的统计数据。在所有自监督方法中,对比学习的使用进一步提高了提取特征的质量。自监督学习的数据效率特性使其有利于迁移学习应用。

目前的自监督学习领域大致可以分为两个分支。一个是用于解决特定任务的自监督学习,例如上次讨论的场景去遮挡,以及自监督深度估计、光流估计、图像关联点匹配等。另一个分支用于表示学习。有监督表示学习,典型的例子是ImageNet分类。在无监督表示学习中,最重要的方法是自监督学习。

自监督学习方法依赖于数据的空间和语义结构。对于图像来说,空间结构学习极其重要,因此在计算机视觉领域得到广泛应用。一是使用旋转、拼接和着色等不同技术作为学习图像表示的前驱任务。对于着色,将灰度照片作为输入并生成照片的彩色版本。计算机视觉中另一种广泛使用的自监督学习方法是图像块的放置。 Doersch 等人的论文就是一个例子。在这项工作中,提供了一个大型未标记图像数据集,并从中提取随机图像块对。在初始步骤之后,卷积神经网络预测第二图像块相对于第一图像块的位置。自监督学习还有其他不同的方法,包括修复和判断错误分类的图像。

自2012年AlexNet问世以来的十年间,机器视觉领域的技术日新月异。机器视觉在很多领域正在逐渐接近甚至超越我们人眼。随着技术的不断进步,机器视觉技术一定会变得更加强大。无论是在安全防护、自动驾驶、缺陷检测还是目标识别等领域,相信机器视觉都会给我们带来更多惊喜。

审稿人:李茜

最新资讯

推荐资讯