ESC
输入关键词搜索文章
目录

Mamba 与视觉 State Space Models

选择性状态空间模型如何重塑视觉 backbone
从语言序列到 2D 图像与 3D 视频的建模革命
Mamba 推理吞吐 vs Transformer
86.8%高分辨率显存节省(Vim vs DeiT)
VideoMamba 速度 vs TimeSformer(64 帧)
40×VideoMamba 显存节省(64 帧长视频)
研究动机
为什么 Mamba 能进入视觉?

Transformer 的 self-attention 在视觉任务上取得了巨大成功,但它的计算复杂度是 O(L²)——序列长度每增加一倍,计算量翻四倍。对于一张 224×224 的图像,ViT 需要处理 196 个 patch;但当图像分辨率升到 1248×1248,patch 数会爆炸到数千个,attention 的二次成本成为瓶颈。

与此同时,视觉任务本身也有两个对立挑战:一方面需要 局部纹理和空间结构(这本是 CNN 的强项),另一方面需要 长程依赖和全局上下文(attention 的优势)。如何同时解决这两个问题?

Mamba 的回答是:用选择性状态压缩替代显式全对交互。

第一章
从 SSM 到 Mamba:为什么线性序列模型重新变得重要

1.1 LTI SSM 的根本局限

标准 SSM(S4)是线性时不变系统——参数(Δ, A, B, C)在所有时间步固定。这使得 SSM 可以等价于全局卷积,实现高效并行训练。但代价是:无法根据输入内容动态调整状态更新

这导致 LTI SSM 在"选择性"任务上完全失效。论文中的 Selective Copying 任务要求模型记住变长位置的 token——卷积核的权重与输入内容无关,无论如何都无法选择"该记住什么"。

1.2 选择性机制的核心设计

Mamba 的核心突破是让 SSM 参数变成输入依赖

Δ_t = softplus(Linear₁(x_t)) # 时间步长,broadcast 到 D 维

B_t = Linear_N(x_t) # 输入矩阵,输入依赖

C_t = Linear_N(x_t) # 输出矩阵,输入依赖

A 保持固定(diagonal structure)

— Mamba: Linear-Time Sequence Modeling with Selective State Spaces, Gu & Dao, 2023

选择性带来的代价:失去了卷积等价性,无法再用 FFT 高效卷积。Mamba 的解法是 hardware-aware parallel scan——只在高速 SRAM 中 materialize 状态,避免 HBM 的 IO 开销。这使得训练速度比之前方法快 3×(A100 GPU)。

1.3 Mamba-2 与 SSD 的理论统一

Transformers are SSMs 这篇论文把 Mamba 和 Transformer 放在了同一框架下。核心发现:

结构化半可分矩阵(Structured Semiseparable Matrices)

SSM 的递归产生的矩阵恰好是下三角半可分矩阵——这类矩阵同时具有:

  • SSM 递归形式的线性计算路径(O(L) 内存,O(L) 时间)
  • Attention 矩阵分解的二次计算路径(O(L²) 内存,O(L²) 时间)

这意味着 SSM 和 attention 是同一类矩阵的不同计算视角

Mamba-2 的关键架构变化:引入 Grouped Value Attention (GVA) head 结构(类比 multi-head attention),参数投影移到 block 开头并行执行,支持 Tensor Parallelism。速度比 Mamba-1 快 2-8×,支持 8× 更大的 state size。

第二章
视觉 Mamba 的两条技术路线

2.1 方向性问题:语言有因果,图像没有

Mamba 的选择性 SSM 本质上是一维因果扫描机制。将其适配到 2D 图像时,研究者必须解决:图像没有天然因果方向,但需要全局感受野来压缩视觉信息。围绕这个问题,发展出了两条技术路线。

2.2 Vision Mamba(Vim):双向扫描路线

Vim(ICML 2024)的核心设计:

  • 图像 → patch 序列(类似 ViT),加入位置编码
  • Vim Block:双向 SSM(forward + backward 各自独立计算)
  • 输出用 z gating 融合两个方向
Vim 架构图
Vim 架构:将图像展平为 patch 序列,通过双向 Mamba block 处理,得到分类或密集预测结果。

为什么双向就够了?因为单向 causal scan 只看到当前 token 之前的信息,图像需要同时看到所有位置的关系。双向 SSM 让每个 patch 能从两个方向收集全局信息。

关键性能:1248×1248 图像(6084 tokens)比 DeiT 快 2.8×,节省 86.8% GPU 显存

2.3 VMamba:交叉扫描路线(SS2D)

VMamba(NeurIPS 2024)提出了更激进的方案:SS2D(2D 选择性扫描)。

SS2D 的三步:

  1. Cross-Scan:沿四条扫描路径展开图像 patch 为序列——左→右、右→左、上→下、下→上
  2. Selective Scan:每个序列独立经过 S6 block
  3. Cross-Merge:四个方向的输出合并为 2D 特征图
SS2D 交叉扫描图
SS2D:四个互补的扫描方向确保每个 pixel 可以从水平和垂直方向同时获取上下文,信息丢失被其他方向补偿。

四个方向确保每个 patch 能从水平和垂直方向同时获取上下文——这是对"图像没有因果方向"最直接的结构回应。

2.4 两种路线的系统性对比

维度Vim(双向)VMamba(交叉四向)
扫描方向数24
信息覆盖每个 patch 从 2 个方向每个 patch 从 4 个方向
位置编码有(位置嵌入)无显式位置编码
架构风格纯 ViT 风格均匀堆叠层次化金字塔(4 stage)
ImageNet Top-1Vim-S 80.5%VMamba-B 83.9%
COCO mAPVMamba-B 49.2%
Throughput (A100)1686 img/s (T) / 646 img/s (B)

关键结论:VMamba 的层次化设计在密集预测任务(检测/分割)上优势更明显;Vim 的双向设计在分类任务上更简洁高效。

第三章
视频 Mamba:时空选择性扫描

3.1 视频的核心挑战

视频理解面临两个对立挑战:局部冗余(短视频 clip 内的时空冗余)和 全局依赖(长视频上下文之间的复杂依赖)。3D CNN 擅长局部但处理全局依赖弱;Video Transformer 擅长全局但计算成本高。Mamba 的线性复杂度在视频上是最自然的落点。

3.2 VideoMamba 的设计选择

VideoMamba(ECCV 2024)严格遵循 ViT isotropic 架构,关键选择:

  • 3D 卷积投影(1×16×16)→ 时空 patch 序列
  • Spatial-First 扫描:按位置组织 patch,再叠帧
  • 加入 spatial + temporal position embedding(SSM 对位置敏感)
  • self-distillation:防止 VMamba 在视频上出现的过拟合问题

为什么 Spatial-First 最优?它保留了 2D 空间邻域的局部性先验。Temporal-First 把同一位置的帧打散,破坏了空间结构。

3.3 关键性能数据

指标VideoMambaTimeSformer优势
64 帧推理速度baseline6× slower6× faster
GPU 显存(64 帧)baseline40× more40× less
Kinetics-400 Top-1SOTA-2.6%+2.6%
Something-Something V2SOTA-5.9%+5.9%

这验证了 Mamba 的线性复杂度在长视频上的真正优势——不是理论上的,而是实际系统级的速度和显存收益。

第四章
任务迁移与真实收益:Mamba 在视觉中赢在哪里?

4.1 高分辨率图像(最优场景)

Mamba 的线性复杂度在高分辨率图像上优势最明显。token 数越大,attention 越贵,SSM 的优势越显著。

4.2 密集预测任务(检测/分割)

方法任务性能对比 Swin
VMamba-TCOCO 检测47.3% mAP+4.6%
VMamba-SCOCO 检测48.7% mAP+3.9%
VMamba-BADE20K 分割51.0% mIoU+2.9%

4.3 医学与遥感

医学图像分割(U-Mamba / VM-UNet / Mamba-UNet)和遥感图像处理(Pan-Mamba / ChangeMamba)的核心思路相同:U-Net 提供局部解码与 skip connection,Mamba 提供长程建模。3D 医学数据和遥感图像放大了长程依赖的价值。

4.4 什么时候不该选 Mamba

  • 小分辨率分类:attention 成本不一定是瓶颈,CNN 足够
  • 强局部纹理任务:纯 SSM 缺少卷积的归纳偏置,需要混合架构
  • 医学小数据:数据集小,recipe 与 U-Net 结构影响更大
结论:Mamba 不是替代 Transformer 的银弹,而是提供了attention 之外的另一种有效 backbone 路线——在长序列、高分辨率、需要全局上下文的场景下,尤其值得考虑。
总结
核心论文索引与未来方向
论文arXiv会议核心贡献
Mamba2312.00752选择性 SSM,Mamba block,硬件感知扫描
Transformers are SSMs / SSD2405.21060半可分矩阵统一,SSD 算法,Mamba-2
Vision Mamba(Vim)2401.09417ICML 2024双向 SSM,位置编码,纯 SSM 视觉 backbone
VMamba2401.10166NeurIPS 2024SS2D,交叉扫描,四向融合,层次化架构
VideoMamba2403.06977ECCV 2024时空扫描,Spatial-First,自蒸馏
A Survey of Mamba2408.01129ACM全领域综述
Vision Mamba Survey2405.04404视觉 Mamba 分类 taxonomy

未来最有潜力突破的方向

  1. 混合架构:Mamba + attention / CNN / MoE,取长补短
  2. 更强的时间建模:专门针对视频时间维度的 SSM 设计
  3. 多模态融合:Mamba 作为统一序列 backbone 连接视觉和语言
  4. 机制解释:为什么选择性 SSM 在视觉上有效——当前解释性分析仍然缺乏