A Survey of Mamba
Transformer 统治 AI 领域多年,但在长序列上的 O(L²) 计算成本始终是痛点。Mamba 通过选择性状态空间模型(Selective SSM)实现了近线性复杂度的序列建模,但相关研究在 2024 年呈现爆发式增长:语言、视频、时间序列、医学、遥感、推荐系统等各个领域都有 Mamba 的身影。
这篇综述(ACM,2024)的核心价值在于:第一次把 Mamba 相关研究系统化重组,从三个维度组织已有工作——架构设计、数据适配、应用领域。这比分散的论文列表更有价值,因为能看清技术演进的内在逻辑。
Mamba 相关工作的架构创新可以归纳为三个维度:Block Design(如何用 Mamba block 构建模型)、Scanning Mode(如何组织扫描路径)、Memory Management(如何管理隐藏状态)。
1.1 Block Design:三种构建策略
Block Design 回答的问题是:如何用 Mamba block 构建完整的模型?论文归纳出三种策略:
| 策略 | 描述 | 典型案例 |
|---|---|---|
| Integration(融合) | 将 Mamba block 与其他架构(Transformer、GNN、RNN、CNN、SNN)结合 | Jamba(Transformer+Mamba)、Graph Mamba(Mamba+GNN) |
| Substitution(替代) | 用 Mamba block 替换经典框架的核心层 | MambaUNet(Mamba 替换 U-Net 主干)、DiS(Mamba 替换 Diffusion backbone) |
| Modification(改造) | 修改 Mamba block 内部组件 | Jamba(MoE)、Sigma(K-way 并行 SSM)、Mamba®(register tokens) |
最有代表性的是 Jamba(混合 Transformer + Mamba)——12B 活跃参数,4GB KV cache(对比 LLaMA-2-70B 的 128GB),单卡 A100 支持 140K 上下文。这是 MoE 与选择性 SSM 的联合收益。
1.2 Scanning Mode:从 Flatten 到 Stereo
Mamba 的递归是一维的,而图像、视频、图数据是 2D/3D 的。Scanning Mode 要解决的核心问题是:如何把 2D/3D 数据展平为适合 SSM 的序列,同时保留空间/时间结构。
综述将扫描方法分为两大类:
Flatten Scan(扁平扫描)
- Bidirectional Scan:前向+后向 SSM 同时处理,Vim、Speech 任务常用
- Sweeping Scan:沿特定方向清扫式扫描(类似扫地),Cross-Scan(四向)、Omni-Scan(8向)
- Continuous Scan:相邻 token 之间连续扫描(Hilbert 曲线),保留语义连续性
- Efficient Scan:跳 patch 并行处理,降低计算量
Stereo Scan(立体扫描)
- Hierarchical Scan:多尺度扫描,全局→局部(HiSS chunk 分级)
- Spatiotemporal Scan:时空联合扫描,VideoMamba 的 Spatial-First / Temporal-First
- Hybrid Scan:混合多种扫描方法,Mambamixer 的 Switch of Scan
关键洞察:Stereo Scan 比 Flatten Scan 能捕获更丰富的知识,因为引入了额外的建模维度。
1.3 Memory Management
SSM 的隐藏状态是压缩记忆,如何管理它影响到长程依赖的保真度。
- HiPPO 初始化:用 Legendre 多项式初始化 A 矩阵,保证对历史的均匀压缩
- DenseMamba:密集连接,将浅层 hidden states 选择性集成到深层,防止信息丢失
- Hidden State Suppressing(DGMamba):域泛化中抑制隐藏状态的负面影响
- 输入依赖的 transition matrices:Mamba® 通过输入依赖的 A 矩阵实现状态追踪和排列组合
2.1 序列数据
| 数据类型 | 典型任务 | 代表工作 |
|---|---|---|
| 自然语言 | 长上下文语言建模 | MambaByte(byte 级)、Jamba(MoE 混合)、BlackMamba |
| 视频 | 视频理解与生成 | VideoMamba、DiS(Diffusion+SSM) |
| 时间序列 | 长期预测 | Mambaformer(混合)、HiSS(分层 SSM) |
| 语音 | 语音分离 | DPMamba、SPMamba |
| 人体运动 | 运动理解 | MotionMamba |
2.2 非序列数据
将非序列数据(图像、图、点云)转化为 token 序列是核心思路。
- 图像:patch 化 → patch 序列 → SSM 扫描(Vim、VMamba、PlainMamba)
- 图数据:Graph Mamba 将图结构数据重排为特定顺序的 token 序列,解决 over-smoothing 问题
- 点云:Point Mamba / 4D PtGaussians 等将点云序列化处理
2.3 多模态数据
Vision-Language 多模态:RoboMamba(视觉编码器 + Mamba)、Mamba-LLMs。
核心挑战:如何对齐视觉 token 序列和语言 token 序列,让 Mamba 的选择性机制在多模态融合中发挥作用。
3.1 医疗健康
Mamba 在 3D 医学影像上的优势最为明显——3D 数据 token 数极大,SSM 的线性复杂度直接转化为显存和速度收益。
典型工作:MedMamba(CNN + Visual Mamba)、U-Mamba(U-Net + Mamba)、VM-UNet。对比传统 U-Net,SSM 提供了更强的长程依赖捕获能力,尤其在 CT/MRI 的切片间依赖上。
3.2 自动驾驶与遥感
遥感图像 token 数大(高分辨率、多光谱),ChangeMamba 通过时空扫描实现变化检测,Swin 等方法在高分辨率遥感上效率不足的问题被 Mamba 缓解。
3.3 推荐系统
用户行为序列长度可达数千,LLaMA 等 Transformer 的 KV cache 成为瓶颈。RecMamba 在 lifelong 场景(序列 ≥ 2k)下训练时间降低 70%,显存降低 80%。这是 SSM 线性复杂度的直接应用。
3.4 代码生成与 DNA 分析
CodeMamba 发现 Mamba 在代码补全和代码理解任务上与 Transformer 持平甚至更优。SMILES-Mamba 用 Mamba 处理小分子药物的 ADMET 预测。序列越长,Mamba 的效率优势越明显。
3.5 机器人与具身智能
RoboMamba:视觉编码器 + Mamba 的端到端机器人 MLLM,视觉-语言对齐 + 机器人专用推理,高效微调。
MaIL:用 Mamba 作为模仿学习策略 backbone,效率与性能兼顾。
4.1 Mamba-based Foundation Models
Transformer 已经证明了大模型(billion 参数级别)在 zero-shot 上的能力。Mamba 的线性复杂度为特定领域的小型 Foundation Model 提供了新路径——可以在更少计算资源下达到相近的建模能力。
4.2 硬件感知计算的进一步优化
Mamba-1 的 Parallel Associative Scan 和 Mamba-2 的 Block-decomposition Matrix Multiplication 是好的开始,但 GPU/TPU 的潜力还未被充分挖掘。FlashButterfly 等新算法可能进一步优化硬件利用率。
4.3 可信 Mamba:Safety & Fairness & Explainability & Privacy
| 维度 | 核心问题 | 潜在方案 |
|---|---|---|
| Safety & Robustness | 对抗扰动可影响 Mamba 输出 | 对抗训练、输入预处理 |
| Fairness | 训练数据偏见会传递到输出 | 去偏技术、公平性约束 |
| Explainability | SSM 的"黑盒"程度比 attention 更严重 | 状态可视化、机制解释 |
| Privacy | 联邦学习 + Mamba 的结合尚未充分探索 | 差分隐私、联邦学习 |
4.4 从 Transformer 向 Mamba 迁移技术
SSD 框架建立了 SSM 和 attention 的共同 vocabulary,这为迁移 Transformer 技术创造了条件:
- PEFT(参数高效微调):LoRA、Adapter 等在 Mamba 上的应用尚不成熟,但潜力明显
- Flash Attention 类技术可以迁移到 SSM 的并行扫描优化
- MoE:Jamba 已经验证了 MoE + Mamba 的可行性
这篇 ACM 综述最有价值的地方不是列举论文,而是将离散的论文重组为有结构的知识体系——三个技术维度(Block Design / Scanning Mode / Memory Management)和七大应用领域构成了一张完整的研究地图。