https://github.com/rayleizhu/BiFormer

实验结果

ImageNet1k:图像分类,实例分割,目标检测
ADE20K:语义分割

图像分类参数设置

input img:224*224
300epochs
AdamW 优化器 权重衰减0.05
初始学习率0.001
5个预热
batch size:1024
正则化技术:RandAugment (rand-m9-mstd0.5inc1)、MixUp (prob = 0:8)、CutMix (prob = 1:0)、Random erase (prob = 0:25)和Random depth(分别为BiFormer-T/S/B, prob =0:1 =0:15=0:4)。

目标检测和实例分割

使用MMDetection提供的标准1x时间表(12个epoch)进行训练,
使用的是AdamW优化器,而不是SGD。
使用初始学习率为1e−4,
批大小为16,
而对于RetinaNet和Mask R-CNN,权值衰减分别设置为1e−4和5e−2。
在训练过程中,调整输入图像的大小,将较短的一面固定为800像素,同时保持较长的一面不超过1333像素

主要关注目标检测

image-1724057399317

Ablation Study

image-1724057835126

Visualization of Attention Map

image-1724057883014

方法

Bi-Level Routing Attention (BRA)

image-1724063886880
原来的方法要么使用手工制作的静态模式,要么在所有查询中共享键值对的抽样子集
image-1724072256679
image-1724072383829

Region partition and input projection.

首先对输入的HWCH * W * C的图片分到SSS * S的不重叠区域
每一块区域就变成了HWS2\frac{H*W}{S^2}
同时输入的X重构成S2HWS2CS^2 * \frac{H*W}{S^2}*C
然后使用线性函数分成Q、K、V三部分。

Region-to-region routing with directed graph

对Q和K进行取平均值处理,然后QrQ_rKrK_r矩阵相乘。
然后对某一区域取前k个对它影响最大的区域,即为IrI^r

Token-to-token attention.

对K和V中的IrI^r进行合并为KgK^gVgV^g,然后进行O=Attention(Q,Kg,Vg)+LCE(V)O=Attention(Q,K^g,V^g)+LCE(V)
LCE是局部增强分支,其中LCE被设置成DWC即深度卷积,内核为5。

Complexity Analysis of BRA

image-1724074495973
image-1724074657811
image-1724643112585
image-1724643116273

结构设计

image-1724073026344
image-1724074690736
image-1724074700432

Q.E.D.


曲中思念今犹在,不见当年梦中人。