Mamba 与视觉 State Space Models：从语言到视觉的长序列建模革命

2026/05/23 17:43:32

AI架构·11 min read

Mamba State Space Model SSM 视觉 Vision Mamba VideoMamba

研究动机

为什么 Mamba 能进入视觉？

Transformer 的 self-attention 在视觉任务上取得了巨大成功，但它的计算复杂度是 O(L²)——序列长度每增加一倍，计算量翻四倍。对于一张 224×224 的图像，ViT 需要处理 196 个 patch；但当图像分辨率升到 1248×1248，patch 数会爆炸到数千个，attention 的二次成本成为瓶颈。

与此同时，视觉任务本身也有两个对立挑战：一方面需要 局部纹理和空间结构（这本是 CNN 的强项），另一方面需要 长程依赖和全局上下文（attention 的优势）。如何同时解决这两个问题？

Mamba 的回答是：用选择性状态压缩替代显式全对交互。

第一章

从 SSM 到 Mamba：为什么线性序列模型重新变得重要

1.1 LTI SSM 的根本局限

标准 SSM（S4）是线性时不变系统——参数（Δ, A, B, C）在所有时间步固定。这使得 SSM 可以等价于全局卷积，实现高效并行训练。但代价是：无法根据输入内容动态调整状态更新。

这导致 LTI SSM 在"选择性"任务上完全失效。论文中的 Selective Copying 任务要求模型记住变长位置的 token——卷积核的权重与输入内容无关，无论如何都无法选择"该记住什么"。

1.2 选择性机制的核心设计

Mamba 的核心突破是让 SSM 参数变成输入依赖：

Δ_t = softplus(Linear₁(x_t)) # 时间步长，broadcast 到 D 维

B_t = Linear_N(x_t) # 输入矩阵，输入依赖

C_t = Linear_N(x_t) # 输出矩阵，输入依赖

A 保持固定（diagonal structure）

— Mamba: Linear-Time Sequence Modeling with Selective State Spaces, Gu & Dao, 2023

选择性带来的代价：失去了卷积等价性，无法再用 FFT 高效卷积。Mamba 的解法是 hardware-aware parallel scan——只在高速 SRAM 中 materialize 状态，避免 HBM 的 IO 开销。这使得训练速度比之前方法快 3×（A100 GPU）。

1.3 Mamba-2 与 SSD 的理论统一

Transformers are SSMs 这篇论文把 Mamba 和 Transformer 放在了同一框架下。核心发现：

结构化半可分矩阵（Structured Semiseparable Matrices）

SSM 的递归产生的矩阵恰好是下三角半可分矩阵——这类矩阵同时具有：

SSM 递归形式的线性计算路径（O(L) 内存，O(L) 时间）
Attention 矩阵分解的二次计算路径（O(L²) 内存，O(L²) 时间）

这意味着 SSM 和 attention 是同一类矩阵的不同计算视角。

Mamba-2 的关键架构变化：引入 Grouped Value Attention (GVA) head 结构（类比 multi-head attention），参数投影移到 block 开头并行执行，支持 Tensor Parallelism。速度比 Mamba-1 快 2-8×，支持 8× 更大的 state size。

第二章

视觉 Mamba 的两条技术路线

2.1 方向性问题：语言有因果，图像没有

Mamba 的选择性 SSM 本质上是一维因果扫描机制。将其适配到 2D 图像时，研究者必须解决：图像没有天然因果方向，但需要全局感受野来压缩视觉信息。围绕这个问题，发展出了两条技术路线。

2.2 Vision Mamba（Vim）：双向扫描路线

Vim（ICML 2024）的核心设计：

图像 → patch 序列（类似 ViT），加入位置编码
Vim Block：双向 SSM（forward + backward 各自独立计算）
输出用 z gating 融合两个方向

Vim 架构：将图像展平为 patch 序列，通过双向 Mamba block 处理，得到分类或密集预测结果。

为什么双向就够了？因为单向 causal scan 只看到当前 token 之前的信息，图像需要同时看到所有位置的关系。双向 SSM 让每个 patch 能从两个方向收集全局信息。

关键性能：1248×1248 图像（6084 tokens）比 DeiT 快 2.8×，节省 86.8% GPU 显存。

2.3 VMamba：交叉扫描路线（SS2D）

VMamba（NeurIPS 2024）提出了更激进的方案：SS2D（2D 选择性扫描）。

SS2D 的三步：

Cross-Scan：沿四条扫描路径展开图像 patch 为序列——左→右、右→左、上→下、下→上
Selective Scan：每个序列独立经过 S6 block
Cross-Merge：四个方向的输出合并为 2D 特征图

SS2D：四个互补的扫描方向确保每个 pixel 可以从水平和垂直方向同时获取上下文，信息丢失被其他方向补偿。

四个方向确保每个 patch 能从水平和垂直方向同时获取上下文——这是对"图像没有因果方向"最直接的结构回应。

2.4 两种路线的系统性对比

维度	Vim（双向）	VMamba（交叉四向）
扫描方向数	2	4
信息覆盖	每个 patch 从 2 个方向	每个 patch 从 4 个方向
位置编码	有（位置嵌入）	无显式位置编码
架构风格	纯 ViT 风格均匀堆叠	层次化金字塔（4 stage）
ImageNet Top-1	Vim-S 80.5%	VMamba-B 83.9%
COCO mAP	—	VMamba-B 49.2%
Throughput (A100)	—	1686 img/s (T) / 646 img/s (B)

关键结论：VMamba 的层次化设计在密集预测任务（检测/分割）上优势更明显；Vim 的双向设计在分类任务上更简洁高效。

第三章

视频 Mamba：时空选择性扫描

3.1 视频的核心挑战

视频理解面临两个对立挑战：局部冗余（短视频 clip 内的时空冗余）和全局依赖（长视频上下文之间的复杂依赖）。3D CNN 擅长局部但处理全局依赖弱；Video Transformer 擅长全局但计算成本高。Mamba 的线性复杂度在视频上是最自然的落点。

3.2 VideoMamba 的设计选择

VideoMamba（ECCV 2024）严格遵循 ViT isotropic 架构，关键选择：

3D 卷积投影（1×16×16）→ 时空 patch 序列
Spatial-First 扫描：按位置组织 patch，再叠帧
加入 spatial + temporal position embedding（SSM 对位置敏感）
self-distillation：防止 VMamba 在视频上出现的过拟合问题

为什么 Spatial-First 最优？它保留了 2D 空间邻域的局部性先验。Temporal-First 把同一位置的帧打散，破坏了空间结构。

3.3 关键性能数据

指标	VideoMamba	TimeSformer	优势
64 帧推理速度	baseline	6× slower	6× faster
GPU 显存（64 帧）	baseline	40× more	40× less
Kinetics-400 Top-1	SOTA	-2.6%	+2.6%
Something-Something V2	SOTA	-5.9%	+5.9%

这验证了 Mamba 的线性复杂度在长视频上的真正优势——不是理论上的，而是实际系统级的速度和显存收益。

第四章

任务迁移与真实收益：Mamba 在视觉中赢在哪里？

4.1 高分辨率图像（最优场景）

Mamba 的线性复杂度在高分辨率图像上优势最明显。token 数越大，attention 越贵，SSM 的优势越显著。

4.2 密集预测任务（检测/分割）

方法	任务	性能	对比 Swin
VMamba-T	COCO 检测	47.3% mAP	+4.6%
VMamba-S	COCO 检测	48.7% mAP	+3.9%
VMamba-B	ADE20K 分割	51.0% mIoU	+2.9%

4.3 医学与遥感

医学图像分割（U-Mamba / VM-UNet / Mamba-UNet）和遥感图像处理（Pan-Mamba / ChangeMamba）的核心思路相同：U-Net 提供局部解码与 skip connection，Mamba 提供长程建模。3D 医学数据和遥感图像放大了长程依赖的价值。

4.4 什么时候不该选 Mamba

小分辨率分类：attention 成本不一定是瓶颈，CNN 足够
强局部纹理任务：纯 SSM 缺少卷积的归纳偏置，需要混合架构
医学小数据：数据集小，recipe 与 U-Net 结构影响更大

结论：Mamba 不是替代 Transformer 的银弹，而是提供了attention 之外的另一种有效 backbone 路线——在长序列、高分辨率、需要全局上下文的场景下，尤其值得考虑。

总结

核心论文索引与未来方向

论文	arXiv	会议	核心贡献
Mamba	2312.00752	—	选择性 SSM，Mamba block，硬件感知扫描
Transformers are SSMs / SSD	2405.21060	—	半可分矩阵统一，SSD 算法，Mamba-2
Vision Mamba（Vim）	2401.09417	ICML 2024	双向 SSM，位置编码，纯 SSM 视觉 backbone
VMamba	2401.10166	NeurIPS 2024	SS2D，交叉扫描，四向融合，层次化架构
VideoMamba	2403.06977	ECCV 2024	时空扫描，Spatial-First，自蒸馏
A Survey of Mamba	2408.01129	ACM	全领域综述
Vision Mamba Survey	2405.04404	—	视觉 Mamba 分类 taxonomy

未来最有潜力突破的方向

混合架构：Mamba + attention / CNN / MoE，取长补短
更强的时间建模：专门针对视频时间维度的 SSM 设计
多模态融合：Mamba 作为统一序列 backbone 连接视觉和语言
机制解释：为什么选择性 SSM 在视觉上有效——当前解释性分析仍然缺乏

Mamba 与视觉 State Space Models

1.1 LTI SSM 的根本局限

1.2 选择性机制的核心设计

1.3 Mamba-2 与 SSD 的理论统一

结构化半可分矩阵（Structured Semiseparable Matrices）

2.1 方向性问题：语言有因果，图像没有

2.2 Vision Mamba（Vim）：双向扫描路线

2.3 VMamba：交叉扫描路线（SS2D）

2.4 两种路线的系统性对比

3.1 视频的核心挑战

3.2 VideoMamba 的设计选择

3.3 关键性能数据

4.1 高分辨率图像（最优场景）

4.2 密集预测任务（检测/分割）

4.3 医学与遥感

4.4 什么时候不该选 Mamba

未来最有潜力突破的方向

参考来源