2019 语言分割指南_凤凰网科技_凤凰网


语言分割指南_凤凰网科技_凤凰网语义分割指的是将图像中的每个像素分配给类标签的过程,类标签可以包括人,汽车,花,家具等。

我们可以将语义分割视为像素级图像分类。例如,在具有许多汽车的图像中,分裂将所有对象标记为汽车对象。然后,称为实例分割的模型可以标记出现在图像中的对象的单独实例。此分段在计算对象数量的应用程序中很有用,例如计算商场中的行人流量。

它的一些主要应用是自动驾驶,人机交互,机器人和照片编辑/创作工具。例如,语义分段在汽车自动驾驶和机器人技术中至关重要,因为模型理解其环境中的语义信息非常重要。

让我们来看看一些关于构建语义分割模型的最先进的研究论文,即:

n

用于语义图像分割的深度卷积网络的弱半监督和半监督学习(用于语义分割的深度监督和半监督深度神经网络)

用于语义分割的完全卷积网络

U-Net:用于生物医学图像分割的卷积网络(用于生物医学图像的语义分割卷积神经网络)

用于语义分割的一百层提拉米苏:完全卷积密集网(用于语义分割的全卷积密集网)

扩张卷积的多尺度上下文聚合

DeepLab使用深度神经网络,孔卷积和完全连接的CRF进行语义分割)

重新思考用于语义图像分割的Atrous卷积

用于语义图像分割的具有可变分离卷积的编码器 - 解码器

FastFCN重新思考语义分段分段后端的腔卷积)

通过视频传播和标签松弛改进语义分割

Gated-SCNN:用于语义分段的门控形状CNN

点击此处可访问上述论文链接。 01.用于语义图像分割的深度神经网络弱和半监督学习(ICCV,2015)

本文提出了一种解决方案,用于处理深度卷积网络中处理弱标记数据的问题,以及组合标记清晰和未标记的数据。

件随机场的组合。

用于语义分割的DCNN弱和半监督学习(

在PASCAL VOC拆分基准测试中,该模型的平均IoU超过70%。该模型的主要挑战之一是它需要在训练期间在像素级别标记的图像。

本文的主要贡献是:

n n

引入期望最大化算法,该算法在边界框或图像级别应用弱和半监督设置进行训练;

证明弱标记和强标记的组合提高了性能,在合并MSCOCO数据集和PASCAL数据集后,作者在PASCAL VOC2012上获得了73.9%的IoU;

通过将少量像素级标记图像与大量边框或图像级注释图像相结合,证明了更好的性能。

02.用于语义分割的完整卷积网络(PAMI,2016)

用于语义分段的完全卷积网络(

本文介绍的模型在PASCAL VOC 2012上的平均IU为67.2%。

完全连接的网络输入任何大小的图像以产生对应于空间维度的输出。在该模型中,ILSVRC分类器被转换为完全连接的网络,并且使用逐像素丢失和网络内采样增强来进行密集预测,之后通过微调来完成分段训练。通过在整个网络上反向传播来完成微调。

03. U-Net:用于生物医学图像分割的卷积网络

在生物医学图像处理中,获得图像中每个单元的类别标签是很重要的。生物医学任务面临的最大挑战是难以获得数千张用于训练的图像。

U-Net:用于医学图像分割的卷积网络(

本文建立在完整的卷积层之上,并进行了修改,使其在某些训练图像上有效并产生更准确的分割。

由于只有少量的训练数据可用,因此该模型对现有数据应用弹性变形以增强数据。如上图1所示,网络体系结构由左侧的收缩路径和右侧的扩展路径组成。

收缩路径由两个3x3卷积组成,每个卷积后跟一个修改后的线性单元和一个2x2最大池用于下采样。每个下采样阶段使特征通道的数量加倍。扩展路径步骤包括特征通道的上采样。接下来是2x2卷积,将特征通道的数量减半。最后一层是1x1卷积,它将组件特征向量映射到所需的类数。

在此模型中,训练使用输入图像进行分割,并完成Caffe实现的随机梯度下降。数据增强用于教导网络在使用非常少的训练数据时实现所需的鲁棒性和不变性。该模型在一个实验中实现了0.92的平均IoU。

04. Layer 100 Tiramisu:用于语义分割的完全卷积密集网(2017)

DenseNets背后的想法是以一种使网络更容易训练和更准确的方式将每一层连接到下一层。

100层提拉米苏:完全卷积的DenseNets用于语义分割(

模型结构在密集块的下采样和上采样路径中构造。下采样路径具有2个向下转换(TD),并且上采样路径具有两个向上转换(TU)。圆圈和箭头表示网络中的连接模式。

本文的主要贡献是:

n n

将DenseNet结构扩展到完整的卷积网络以进行语义分割;

建议密集网络中的上采样路径优于其他上采样路径;

证明该网络能够在标准基准上产生最佳结果。

该模型在CamVid数据集上实现了88%的全局精度。

05.扩展卷积的多尺度背景聚合(ICLR,2016)

在本文中,开发了一个卷积网络模块,可以融合多尺度的上下文信息而不会损失分辨率。然后可以以任何分辨率将模块插入现有架构中。该模块基于扩展卷积。

用于扩展卷积的多尺度上下文聚合(

该模块在Pascal VOC 2012数据集上进行了测试。它表明将上下文模块添加到现有的语义分段体系结构可以提高其准确性。

经过实验培训的前端模块在VOC-2012验证集上实现了69.5%的平均IoU,在测试机器上的平均IoU为71.3%。不同对象的模型的训练精度如下。

06. DeepLab:基于深度卷积网络,无效卷积和完全连接的CRF的图像语义分割(TPAMI,2017)

本文对基于深度学习的语义分割的贡献如下:

n n

提出了一种用于密集预测任务的上采样滤波器。

提出了空间金字塔合并(ASPP)用于多尺度的目标分割

使用DCNN改善目标边界的定位。

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully… (

本文提出的DeepLab系统在PASCAL VOC-2012语义图像分割任务中获得了79.7%的mIOU。

本文讨论了深度CNN在语义分割应用中面临的主要挑战,包括:

n n

由Max-Pooling和下采样组合引起的特征分辨率降低。

目标的多尺度问题。

DCNN空间变换的不变性导致定位精度的降低,而面向对象的分类器需要具有空间变换不变性。

可以通过对滤波器插入零进行上采样或通过输入特征映射的稀疏采样来实现孔卷积。第二种方法需要通过等于孔卷积率r的因子对输入特征映射进行下采样,并且去除间隔线以生成r ^ 2的降低分辨率的映射,每个可能的转换为r×r分辨率。缩减的变换对应于分辨率图。然后,将标准卷积运算应用于所获得的特征图,并且将提取的特征与图像的原始分辨率合并。

07。语义图像分割的阿托拉斯卷积再思考(2017)本文讨论了使用DCNNS进行语义分割的两个挑战(如上所述);连续池操作的应用出现在特征分辨率降低的情况下,对象出现在多个尺度上。重新思考用于语义图像分割的Atrous卷积(号为了解决第一个问题,本文建议使用阿托罗斯卷积,这也成为一个扩展卷积。提出了利用阿托罗斯卷积扩展视场,从而包含多尺度背景来解决第二个问题。0×251C在没有DenseCRF后处理的情况下,本文中的“Deeplabv3”在PascalVOC 2012测试集上实现了85.7%的精度。0×251C08。基于空分卷积编解码器的图像语义分割(eccv,2018)本文采用“Deeplabv3+”方法,测试集性能分别达到89.0%和82.1%,无需对Pascal VOC 2012和Cityscapes数据集进行任何后处理。该模型是deeplabv3的一个扩展,通过添加一个简单的译码器模块来优化分割结果。基于空洞可分离卷积编解码器的图像语义分割(号0×251C本文实现了两种利用空间金字塔池模块进行语义分割的神经网络。一种方法通过混合不同分辨率的特征来捕获上下文信息,而另一种方法则侧重于获得清晰的目标边界。0×251C

09. FastFCN:重新思考语义分割模型主干中的扩展卷积(2019)

本文提出了一个联合上采样模块,命名为联合金字塔上采样(JPU),以取代消耗大量时间和内存的扩展卷积。它的工作原理是将获取高分辨率图像的任务转换为联合上采样问题。

重新思考语义分割模型主干中的扩展卷积(

此方法在Pascal上下文数据集上实现了53.13%的mIoU性能,速度提高了三倍。

该方法实现完全连接的网络(FCN)作为主干,并且同时应用JPU以对低分辨率特征图进行上采样以生成高分辨率特征图。用JPU替换扩展的卷积不会导致任何性能损失。

10.通过视频传播和标签松弛优化语义分割(CVPR,2019)

本文提出了一种基于视频的方法,通过合成新的训练样本来扩展训练集。这是为了提高语义分割网络的准确性。该方法探索了视频预测模型预测未来帧以预测未来帧的标签的能力。

通过视频传播和标记放松来优化语义分割(

通过使用合成数据集来训练分割网络以提高预测准确性。所提出的方法可以在Cityscapes数据集上实现83.5%的mIoU,在CamVid数据集上实现82.9%的mIoUs。

本文提出了两种预测未来标签的方法:

n n

标签传播方法(LP)通过将传播的标签与真实的未来帧配对来创建新的训练样本。

图像标签混合传播方法(JP)通过将传播标签与对应的传播图像配对来创建新的训练样本。

利用视频预测模型将标签传播到相邻帧,引入图像标签混合传播方法来处理图像未对准问题,并通过最大化类似联合概率似然函数来放宽单热标签。训练。

11.门控SCNN:用于语义分段的门控形状CNN(2019)

本文是语义分割模块的最新发展。作者提出了双流CNN架构。在此体系结构中,形状信息被视为单独的分支。该形状流仅处理边界相关信息。这是由模型的门控卷积层(GCL)和本地监督强制执行的。

门控SCNN:用于语义分段的门控形状CNN(2019,

该模型在mloU上的表现优于DeepLab-v3 + 1.5%,在F界面得分上优于4%。此模型已使用Citycapes基准进行评估。在较小和较薄的物体上,该模型在IoU上实现了7%的改进。

下表显示了Gated-SCNN与其他模型的性能比较

总结

我们现在应该关注一些最常见的技术,这些技术专注于在各种环境中执行语义分割。

上面的文章/摘要包含其代码实现的链接。我们很高兴看到您在测试后获得的结果。

通过:

单击[2019语义分割指南]以访问

n n n n n n