MambaOut 论文阅读笔记

1 手写笔记转换（文字版）

1
2
3

Mamba
Selective State Spaces
RNN  →  Linear RNN  →  Mamba（Selective State Spaces 根据每个输入生成不一样的权重）

Mamba

结论：Mamba 适用于 长序列和自回归 任务
因此：对于图像分类效果不好，目标检测和语义分割不算自回归但符合长序列 —— 可能有潜力
自回归：要求每个 token 只从之前和当前的token聚合信息 → Causal Mode
（生成式模型）
因果：只与过去的信息有关（← 如 GPT?）
Dino‑v2 自监督是否是这个思路？ (蓝笔注)
对于 Transformer
- 可以mask掉未来的注意力变成 causal mode
- ViT这样操作在imagenet分类任务中掉点 （不掉才不对吧？）

Input dependent parameters 输入相关参数

SSM 的序列‑到‑序列变换 Sequence to Sequence transformation of SSM can be expressed by

隐状态存储了所有历史信息，大小恒定，-> 意味着一定 lossy 有损
而 attention 近似无损，因此理论上在短序列上性能不如attention，长序列上有优势

Limitation：因果性 → 无法在 fully‑visible mode 使用

对比Mamba和Attention的记忆

作者利用 MLP ratio = 4 的 Transformer Block，FLOPs：
$24D^2 L + 4DL^2$
设输入 $X \in \mathbb{R}^{L\times D}$ ，token length = L，channel = D
二次项 / 线性项比例：
$r_L = (4DL^2) / (24D^2 L) = \frac{L}{6D}$
当 $L > 6D$ ，L² 项主导计算量 → 视为长序列
阈值示例
- ViT‑S，D = 384 → $\tau_L$ = 6 × 384 = 2304
- ViT‑B，D = 768 → $\tau_L$ = 4608
ImageNet 分类
输入 $224^2$ ，16×16 patch ⇒ 14×14 = 196 tokens ≪ 阈值 → 短序列
COCO 检测 & ADE20K 分割
- COCO 800×1280
- ADE20K 512×2048
  Patch 16×16 ⇒ ≈4 k tokens ≥ 阈值 → 长序列
转换阈值，单纯增大图像尺寸可行吗？
例：640 × 192，40 × 12 = 480；再 ×3 = 1440 tokens，似乎仍不足 (蓝笔思考)
但是高分辨率应该算比如1024 × 320 (蓝笔注)
结论：多数图像理解任务 不需要 causal mode

论文：”MambaOut: Do We Really Need Mamba for Vision?” (Yu & Wang, CVPR 2025)

任务	框架 / 关键超参
ImageNet‑1K 分类	$224^2$ 输入；AdamW；300 epochs；batch 4096；lr 4e‑3；增强 = RandAug(9/0.5)+Mixup/CutMix+RE；SD $\leq$ 0.6
COCO 检测/实例分割	Mask R‑CNN 1×； $800 \text{ px} \leftrightarrow 1333 \text{ px}$ ；AdamW 1e‑4；batch 16；FP16
ADE20K 语义分割	UperNet；160 k iters；AdamW 1e‑4；batch 16；FP16
Backbone (MambaOut)	Gated CNN Blocks（无 SSM）； $7 \times 7$ DW‑Conv token mixer；MLP ratio = 8/3

模型	Param (M)	MAC (G)	Top‑1 (%)
MambaOut‑Femto	7.3	1.2	78.9
MambaOut‑Tiny	26.5	4.5	82.7
MambaOut‑Small	48.5	9.0	84.1
MambaOut‑Base	84.8	15.8	84.2
LocalVMamba‑S	50	11.4	83.7
VMamba‑S	44	11.2	83.5
Vim‑S	26	5.1	80.5

结论：无论参数规模，MambaOut 均优于视觉 Mamba 系列 → 支持 H1。

结论：长序列场景下视觉 Mamba 小幅领先，验证 H2。

结论：ADE20K 超过 4k tokens，视觉 Mamba 仍具微弱优势。

End of notes.

MambaOut 论文阅读笔记

https://sidiexplore.xyz/2025/04/22/mambaout/

作者

LIANG Sidi

发布于

2025年4月22日

许可协议