Mamba 与视觉 State Space Models
Transformer 的 self-attention 在视觉任务上取得了巨大成功,但它的计算复杂度是 O(L²)——序列长度每增加一倍,计算量翻四倍。对于一张 224×224 的图像,ViT 需要处理 196 个 patch;但当图像分辨率升到 1248×1248,patch 数会爆炸到数千个,attention 的二次成本成为瓶颈。
与此同时,视觉任务本身也有两个对立挑战:一方面需要 局部纹理和空间结构(这本是 CNN 的强项),另一方面需要 长程依赖和全局上下文(attention 的优势)。如何同时解决这两个问题?
Mamba 的回答是:用选择性状态压缩替代显式全对交互。
1.1 LTI SSM 的根本局限
标准 SSM(S4)是线性时不变系统——参数(Δ, A, B, C)在所有时间步固定。这使得 SSM 可以等价于全局卷积,实现高效并行训练。但代价是:无法根据输入内容动态调整状态更新。
这导致 LTI SSM 在"选择性"任务上完全失效。论文中的 Selective Copying 任务要求模型记住变长位置的 token——卷积核的权重与输入内容无关,无论如何都无法选择"该记住什么"。
1.2 选择性机制的核心设计
Mamba 的核心突破是让 SSM 参数变成输入依赖:
Δ_t = softplus(Linear₁(x_t)) # 时间步长,broadcast 到 D 维
B_t = Linear_N(x_t) # 输入矩阵,输入依赖
C_t = Linear_N(x_t) # 输出矩阵,输入依赖
A 保持固定(diagonal structure)
— Mamba: Linear-Time Sequence Modeling with Selective State Spaces, Gu & Dao, 2023
选择性带来的代价:失去了卷积等价性,无法再用 FFT 高效卷积。Mamba 的解法是 hardware-aware parallel scan——只在高速 SRAM 中 materialize 状态,避免 HBM 的 IO 开销。这使得训练速度比之前方法快 3×(A100 GPU)。
1.3 Mamba-2 与 SSD 的理论统一
Transformers are SSMs 这篇论文把 Mamba 和 Transformer 放在了同一框架下。核心发现:
结构化半可分矩阵(Structured Semiseparable Matrices)
SSM 的递归产生的矩阵恰好是下三角半可分矩阵——这类矩阵同时具有:
- SSM 递归形式的线性计算路径(O(L) 内存,O(L) 时间)
- Attention 矩阵分解的二次计算路径(O(L²) 内存,O(L²) 时间)
这意味着 SSM 和 attention 是同一类矩阵的不同计算视角。
Mamba-2 的关键架构变化:引入 Grouped Value Attention (GVA) head 结构(类比 multi-head attention),参数投影移到 block 开头并行执行,支持 Tensor Parallelism。速度比 Mamba-1 快 2-8×,支持 8× 更大的 state size。
2.1 方向性问题:语言有因果,图像没有
Mamba 的选择性 SSM 本质上是一维因果扫描机制。将其适配到 2D 图像时,研究者必须解决:图像没有天然因果方向,但需要全局感受野来压缩视觉信息。围绕这个问题,发展出了两条技术路线。
2.2 Vision Mamba(Vim):双向扫描路线
Vim(ICML 2024)的核心设计:
- 图像 → patch 序列(类似 ViT),加入位置编码
- Vim Block:双向 SSM(forward + backward 各自独立计算)
- 输出用 z gating 融合两个方向
为什么双向就够了?因为单向 causal scan 只看到当前 token 之前的信息,图像需要同时看到所有位置的关系。双向 SSM 让每个 patch 能从两个方向收集全局信息。
关键性能:1248×1248 图像(6084 tokens)比 DeiT 快 2.8×,节省 86.8% GPU 显存。
2.3 VMamba:交叉扫描路线(SS2D)
VMamba(NeurIPS 2024)提出了更激进的方案:SS2D(2D 选择性扫描)。
SS2D 的三步:
- Cross-Scan:沿四条扫描路径展开图像 patch 为序列——左→右、右→左、上→下、下→上
- Selective Scan:每个序列独立经过 S6 block
- Cross-Merge:四个方向的输出合并为 2D 特征图
四个方向确保每个 patch 能从水平和垂直方向同时获取上下文——这是对"图像没有因果方向"最直接的结构回应。
2.4 两种路线的系统性对比
| 维度 | Vim(双向) | VMamba(交叉四向) |
|---|---|---|
| 扫描方向数 | 2 | 4 |
| 信息覆盖 | 每个 patch 从 2 个方向 | 每个 patch 从 4 个方向 |
| 位置编码 | 有(位置嵌入) | 无显式位置编码 |
| 架构风格 | 纯 ViT 风格均匀堆叠 | 层次化金字塔(4 stage) |
| ImageNet Top-1 | Vim-S 80.5% | VMamba-B 83.9% |
| COCO mAP | — | VMamba-B 49.2% |
| Throughput (A100) | — | 1686 img/s (T) / 646 img/s (B) |
关键结论:VMamba 的层次化设计在密集预测任务(检测/分割)上优势更明显;Vim 的双向设计在分类任务上更简洁高效。
3.1 视频的核心挑战
视频理解面临两个对立挑战:局部冗余(短视频 clip 内的时空冗余)和 全局依赖(长视频上下文之间的复杂依赖)。3D CNN 擅长局部但处理全局依赖弱;Video Transformer 擅长全局但计算成本高。Mamba 的线性复杂度在视频上是最自然的落点。
3.2 VideoMamba 的设计选择
VideoMamba(ECCV 2024)严格遵循 ViT isotropic 架构,关键选择:
- 3D 卷积投影(1×16×16)→ 时空 patch 序列
- Spatial-First 扫描:按位置组织 patch,再叠帧
- 加入 spatial + temporal position embedding(SSM 对位置敏感)
- self-distillation:防止 VMamba 在视频上出现的过拟合问题
为什么 Spatial-First 最优?它保留了 2D 空间邻域的局部性先验。Temporal-First 把同一位置的帧打散,破坏了空间结构。
3.3 关键性能数据
| 指标 | VideoMamba | TimeSformer | 优势 |
|---|---|---|---|
| 64 帧推理速度 | baseline | 6× slower | 6× faster |
| GPU 显存(64 帧) | baseline | 40× more | 40× less |
| Kinetics-400 Top-1 | SOTA | -2.6% | +2.6% |
| Something-Something V2 | SOTA | -5.9% | +5.9% |
这验证了 Mamba 的线性复杂度在长视频上的真正优势——不是理论上的,而是实际系统级的速度和显存收益。
4.1 高分辨率图像(最优场景)
Mamba 的线性复杂度在高分辨率图像上优势最明显。token 数越大,attention 越贵,SSM 的优势越显著。
4.2 密集预测任务(检测/分割)
| 方法 | 任务 | 性能 | 对比 Swin |
|---|---|---|---|
| VMamba-T | COCO 检测 | 47.3% mAP | +4.6% |
| VMamba-S | COCO 检测 | 48.7% mAP | +3.9% |
| VMamba-B | ADE20K 分割 | 51.0% mIoU | +2.9% |
4.3 医学与遥感
医学图像分割(U-Mamba / VM-UNet / Mamba-UNet)和遥感图像处理(Pan-Mamba / ChangeMamba)的核心思路相同:U-Net 提供局部解码与 skip connection,Mamba 提供长程建模。3D 医学数据和遥感图像放大了长程依赖的价值。
4.4 什么时候不该选 Mamba
- 小分辨率分类:attention 成本不一定是瓶颈,CNN 足够
- 强局部纹理任务:纯 SSM 缺少卷积的归纳偏置,需要混合架构
- 医学小数据:数据集小,recipe 与 U-Net 结构影响更大
| 论文 | arXiv | 会议 | 核心贡献 |
|---|---|---|---|
| Mamba | 2312.00752 | — | 选择性 SSM,Mamba block,硬件感知扫描 |
| Transformers are SSMs / SSD | 2405.21060 | — | 半可分矩阵统一,SSD 算法,Mamba-2 |
| Vision Mamba(Vim) | 2401.09417 | ICML 2024 | 双向 SSM,位置编码,纯 SSM 视觉 backbone |
| VMamba | 2401.10166 | NeurIPS 2024 | SS2D,交叉扫描,四向融合,层次化架构 |
| VideoMamba | 2403.06977 | ECCV 2024 | 时空扫描,Spatial-First,自蒸馏 |
| A Survey of Mamba | 2408.01129 | ACM | 全领域综述 |
| Vision Mamba Survey | 2405.04404 | — | 视觉 Mamba 分类 taxonomy |
未来最有潜力突破的方向
- 混合架构:Mamba + attention / CNN / MoE,取长补短
- 更强的时间建模:专门针对视频时间维度的 SSM 设计
- 多模态融合:Mamba 作为统一序列 backbone 连接视觉和语言
- 机制解释:为什么选择性 SSM 在视觉上有效——当前解释性分析仍然缺乏
参考来源
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Gu & Dao, 2023)
- Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality (Dao & Gu, 2024)
- Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model (Zhu et al., ICML 2024)
- VMamba: Visual State Space Model (Liu et al., NeurIPS 2024)
- VideoMamba: State Space Model for Efficient Video Understanding (Li et al., ECCV 2024)
- A Survey of Mamba (Qu et al., 2024)
- Vision Mamba: A Comprehensive Survey and Taxonomy (Liu et al., 2024)