首页>>人工智能->ResNeSt:Split

ResNeSt:Split

时间:2023-11-29 本站 点击:1

参考

author

paper

2004.08955.pdf (arxiv.org)

code

zhanghang1989/ResNeSt: ResNeSt: Split-Attention Networks (github.com)

data

Abstract

众所周知, featuremap attention and multi-path representation 对计算机视觉很重要。在本文中,我们提出了一个模块化的体系结构,该体系结构在不同的网络分支上应用通道关注,以利用它们在捕获跨特征交互和学习不同特征表示方面的能力。我们的设计结果是一个简单而统一的计算块,只需使用几个变量就可以参数化。我们的名为ResNeSt的模型在图像分类的准确性和延迟方面优于EfficientNet。此外,ResNeSt在作为主干的几个公共基准上取得了优异的迁移学习成绩,并被COCO-LVIS挑战赛的获奖作品所采用。完整系统和经过预培训的模型的源代码是公开的。

1.Introduction

深度卷积神经网络(CNN)已成为计算机视觉中图像分类和其他转移学习任务的基本方法。作为CNN的关键组成部分,卷积层学习一组滤波器,这些滤波器通过空间和信道连接聚合邻域信息。此操作适用于捕获输出通道密集连接到每个输入通道的相关特征。激励模型(Inception models)[53,54]探索多路径表示以学习独立特征,其中输入被分解为几个低维嵌入,通过不同的卷积滤波器组进行转换,然后通过concatenation进行合并。该策略通过分离(decoupling)输入通道连接来推进特征探索[63]。

在过去几十年中,视觉皮层中的神经元连接启发了CNN的发展[30]。视觉表征学习的主题是发现给定任务的显著特征[74]。之前的工作已经模拟了空间和通道依赖性[2,27,43],并纳入了注意机制[27,36,58]。SE-like channel-wise attention[27]利用全局池来压缩通道统计数据,并预测一组注意因子,以应用与原始特征图的通道相乘。该机制对featuremap通道的相互依赖性进行建模,使用全局上下文信息有选择地突出显示或去突出显示特征[27,36]。这种注意机制类似于人类初级视觉皮层的注意选择阶段[73],它找到了识别物体的信息部分。人类/动物利用不同区域的皮层感知不同的视觉模式,这些区域对不同的特定视觉特征做出反应[45]。这种策略可以很容易地识别神经感知系统中相似物体的细微但主要的差异。类似地,如果我们可以构建一个CNN体系结构来捕获不同视觉特征的单个显著属性,我们将改进图像分类的网络表示。

在本文中,我们提出了一个简单的体系结构,它将通道注意策略与多路径网络布局相结合。我们的方法捕获跨通道特征相关性,同时保留元结构中的独立表示。 我们网络的一个模块在低维嵌入一组转换,并像在多径网络中一样连接它们的输出。每一次转换都结合了channel-wise attention策略,以捕捉featuremap的相互依赖性。我们进一步简化了架构,使每个转换共享相同的拓扑(例如图2(右))。我们只需要几个变量就可以参数化网络架构。此外,这种设置还允许我们使用与统一的CNN操作相同的实现来加速训练。我们把这种计算块称为分裂注意块(Split-Attention Block)。将多个分离注意力块以ResNet方式叠加,我们创建了一个新的ResNet变体,我们称之为分离注意力网络(ResNeSt)。

我们在ImageNet数据集[14]上对提出的ResNeSt网络的性能进行了基准测试。如表2所示,与通过神经体系结构搜索[56]生成的最先进CNN模型相比,ResNeSt实现了更好的速度-精度权衡。此外,我们还研究了在目标检测、实例分割和语义分割方面的迁移学习结果。在作为backbone网络时,Proposed ResNeSt在几个基准上取得了优异的性能。例如,我们的带有ResNeSt-101主干的级联RCNN[5]模型在MS-COCO实例分割上实现了48.3%的box mAP和41.56%的mask mAP。我们的DeepLabV3[9]模型再次使用ResNeSt-101主干网,在ADE20K场景解析验证集上实现了46.9%的mIoU,比之前的最佳结果高出超过1%的mIoU。此外,ResNeSt已被2020年COCO-LVIS挑战赛的获奖作品采用[21,55,57]。

2. Related Work

CNN Architectures.

自AlexNet[33]以来,深卷积神经网络[34]一直主导着图像分类。随着这一趋势,研究已经从工程手工制作的功能转向工程网络架构。NIN[38]首先使用一个全局平均池层来代替重的全连接层,并采用1×1卷积层来学习featuremap通道的非线性组合,这是第一种featuremap注意机制。VGG Net[48]提出了一种模块化网络设计策略,重复堆叠同一类型的网络块,简化了网络设计的工作流程和下游应用的转移学习。公路网[51]引入了公路连接,使信息在几层之间流动而不衰减,有助于网络融合。在这项开创性工作的成功基础上,ResNet[23]引入了一种身份跳过连接,它减轻了深层神经网络中消失梯度的困难,并允许网络学习改进的特征表示。ResNet已经成为最成功的CNN体系结构之一,被广泛应用于各种计算机视觉应用中。

Multi-path and featuremap Attention.

多路径表示在GoogleNet[53]中取得了成功,其中每个网络块由不同的卷积克尔函数组成。ResNeXt[64]在ResNet bottle block中采用了组卷积[33],将多路径结构转换为统一的操作。SE Net[27]通过自适应地重新校准通道特征响应,引入了一种通道注意机制。最近,SK Net[36]在两个网络分支上引起了人们的关注。受之前方法的启发,我们的网络将通道式注意力与多路径网络表示相结合。

Neural Architecture Search.

随着计算能力的增强,研究兴趣已开始从手工设计的体系结构转移到系统搜索的体系结构。最近的工作探索了通过参数共享进行高效的神经体系结构搜索[41,44],并在低延迟和低复杂性CNN模型中取得了巨大成功[3,59]。然而,由于通过与其他架构共享参数,GPU内存使用率很高,因此搜索大规模neural网络仍然具有挑战性。EfficientNet[56]首先在小范围内搜索,然后系统地扩大网络复杂性。相反,我们使用ResNet meta体系结构构建模型,以将网络扩展到更深的版本(从50到269层)。我们的方法还扩大了神经结构搜索的搜索空间,并可能提高整体性能,这可以在未来的工作中进行研究。

3. Split-Attention Networks

我们现在介绍分割注意块,它可以在第3.1节中允许featuremap注意跨不同的featuremap组启用。稍后,我们将在第3.2节中介绍我们的网络定位,以及如何通过标准CNN操作来加速这种架构。

3.1. Split-Attention Block

我们的分割注意块是一个计算单元,由featuremap group和分割注意操作组成。图2(右)描绘了一个分裂注意力块的概述。

Featuremap group。与ResNeXt blocks[64]中一样,特征可以分为几个组,featuremap组的数量由基数超参数K给出。我们将得到的featuremap组称为基数组。在本文中,我们引入了一个新的基数超参数R,它表示基数group中的分裂数,因此特征group的总数是G=KR。我们可以对每个单独的group应用一系列变换{$F_1$,$F_2$∈ {1,2,…$F_G$},然后,每个组的中间代表是$U_i$=$F_i(X)$, for i ∈ {1, 2, ...G}。

Split Attention in Cardinal Groups. 在[28,36]之后,每个基数的组合表示可以通过多个分裂的元素求和进行融合来获得。第k个基数group的表示为:$\hat{U}^{k}=\sum{j=R(k-1)+1}^{R k} U{j}$, $\hat{U}^{k} \in \mathbb{R}^{H \times W \times C / K}$, k ∈ 1, 2, ...K,H, W and C是block的输出特征图的shape。通过跨空间维度的global average pooling,可以收集具有嵌入的、基于channel-wise的统计信息的全局上下文信息$s^{k} \in \mathbb{R}^{C / K}$, 此处,第c分量计算如下: $s{c}^{k}=\frac{1}{H \times W} \sum{i=1}^{H} \sum{j=1}^{W} \hat{U}{c}^{k}(i, j)$

基数group的加权融合表示为:$V^{k} \in \mathbb{R}^{H \times W \times C / K}$,使用通道方式的软注意进行聚合,其中每个featuremap channel使用分割上的加权组合生成。然后,第c个信道计算为:

$V{c}^{k}=\sum{i=1}^{R} a{i}^{k}(c) U{R(k-1)+i}$

$a_{i}^{k}(c)$表示(软)分配权重,由以下公式给出:

$a{i}^{k}(c)= \begin{cases}\frac{\exp \left(\mathcal{G}{i}^{c}\left(s^{k}\right)\right)}{\sum{j=1}^{R} \exp \left(\mathcal{G}{j}^{c}\left(s^{k}\right)\right)} & \text { if } R>1 \ \frac{1}{1+\exp \left(-\mathcal{G}_{i}^{c}\left(s^{k}\right)\right)} & \text { if } R=1\end{cases}$

mapping $\mathcal{G}_{i}^{c}$基于全局上下文表示$S^k$确定第c个通道的每个拆分的权重。

ResNeSt Block.然后沿着通道维度连接cardinal group表示:V=Concat $\left{V^{1}, V^{2}, \ldots V^{K}\right}$。与标准的residual blocks一样,如果input和output featuremap共享相同的shape,则Split-Attention block的最终输出Y是使用shortcut connection生成的:Y=V+X。对于使用stride块,将对shortcut connection应用适当的变换$\mathcal{T}$,以对齐输出形状:Y=V+$\mathcal{T}$(X)。例如,$\mathcal{T}$可以是strided convolution,也可以是convolution-with-pooling(带有池化层的卷积)【意思就是shape减半或...】。

Instantiation and Computational Costs. Figure 2 (right)是Split-Attention block的一个实例 group变换$\mathcal{F}_{i}$是 1×1卷积,然后是3×3卷积,attention weight function $\mathcal{G}$是使用两个完全连接的层与ReLU激活进行参数化。Split-Attention block的参数的数量和与使用相同cardinality和channels数的standard residual block很相似。

Relation to Existing Attention Methods.首先在SE Net[27]中介绍的是squeeze-and-attention(在原始论文中称为excitation)的概念,它是利用一个全局上下文来预测channel-wise attention 因子。当radix=1时,我们的Split-Attention block对每个cardinal group应用SE操作,而SE Net在整个块的顶部运行,而不管多个group。SK Net[36]在两个网络流之间引入了关注特性。设置radix=2时,分割注意力块对每个基数组应用类似SK的注意力。我们的方法在cardinal group设置[63]中推广了featuremap attention[27,36]之前的工作,并且它的实现在计算上仍然有效。图2显示了与SE网络和SK网络块的总体比较。

3.2. Efficient Radix-major Implementation

我们将上一节中描述的layout(布局)称为s cardinality-major implementation(基数主要实现),其中具有相同cardinality索引的featuremap fgroup在物理上彼此相邻(图2(右))。cardinality主要实现简单直观,但很难使用标准的CNN运算器进行模块化和加速。为此,我们引入了一个等效的radix-major implementation。

Figure 4 给出了radix-major layout中Split-Attention block的概述。输入featuremap首先被划分为RK组,每组都有cardinality-index和radix-index。在此布局中,具有相同基数索引的组彼此相邻。然后,我们可以对不同的拆分进行求和,这样具有相同cardinality-index但不同radix-index的featuremap group就会融合在一起。global pooling layer在空间维度上聚合,同时保持通道维度分离,这与对每个cardinal groups执行global pooling,然后连接结果相同。然后,在合并层之后添加两个连续的、group数等于cardinality的完全连接(FC)层,以预测每个拆分的注意权重。分组FC层的使用使得在每个基本组上分别应用每对FC是相同的。

通过这种实现,第一个1×1卷积层可以统一为一个层,而3×3卷积层可以使用具有RK组数的单个分组卷积来实现。因此,Split-Attention block是使用standard CNN operators模块化的。

4. Network and Training


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:/AI/1090.html