ESC
输入关键词搜索文章
目录

A Survey of Mamba

ACM 2024 · 全领域综述
从架构设计到数据适配:Mamba 研究全景图
250+引用论文数量
3核心技术维度
7应用领域覆盖
ACM2024 顶会
研究背景
为什么需要这篇综述

Transformer 统治 AI 领域多年,但在长序列上的 O(L²) 计算成本始终是痛点。Mamba 通过选择性状态空间模型(Selective SSM)实现了近线性复杂度的序列建模,但相关研究在 2024 年呈现爆发式增长:语言、视频、时间序列、医学、遥感、推荐系统等各个领域都有 Mamba 的身影。

这篇综述(ACM,2024)的核心价值在于:第一次把 Mamba 相关研究系统化重组,从三个维度组织已有工作——架构设计、数据适配、应用领域。这比分散的论文列表更有价值,因为能看清技术演进的内在逻辑。

第一章
架构设计:从 Block Design 到 Memory Management

Mamba 相关工作的架构创新可以归纳为三个维度:Block Design(如何用 Mamba block 构建模型)、Scanning Mode(如何组织扫描路径)、Memory Management(如何管理隐藏状态)。

1.1 Block Design:三种构建策略

Block Design 回答的问题是:如何用 Mamba block 构建完整的模型?论文归纳出三种策略:

策略描述典型案例
Integration(融合)将 Mamba block 与其他架构(Transformer、GNN、RNN、CNN、SNN)结合Jamba(Transformer+Mamba)、Graph Mamba(Mamba+GNN)
Substitution(替代)用 Mamba block 替换经典框架的核心层MambaUNet(Mamba 替换 U-Net 主干)、DiS(Mamba 替换 Diffusion backbone)
Modification(改造)修改 Mamba block 内部组件Jamba(MoE)、Sigma(K-way 并行 SSM)、Mamba®(register tokens)

最有代表性的是 Jamba(混合 Transformer + Mamba)——12B 活跃参数,4GB KV cache(对比 LLaMA-2-70B 的 128GB),单卡 A100 支持 140K 上下文。这是 MoE 与选择性 SSM 的联合收益。

1.2 Scanning Mode:从 Flatten 到 Stereo

Mamba 的递归是一维的,而图像、视频、图数据是 2D/3D 的。Scanning Mode 要解决的核心问题是:如何把 2D/3D 数据展平为适合 SSM 的序列,同时保留空间/时间结构

综述将扫描方法分为两大类:

Flatten Scan(扁平扫描)

  • Bidirectional Scan:前向+后向 SSM 同时处理,Vim、Speech 任务常用
  • Sweeping Scan:沿特定方向清扫式扫描(类似扫地),Cross-Scan(四向)、Omni-Scan(8向)
  • Continuous Scan:相邻 token 之间连续扫描(Hilbert 曲线),保留语义连续性
  • Efficient Scan:跳 patch 并行处理,降低计算量

Stereo Scan(立体扫描)

  • Hierarchical Scan:多尺度扫描,全局→局部(HiSS chunk 分级)
  • Spatiotemporal Scan:时空联合扫描,VideoMamba 的 Spatial-First / Temporal-First
  • Hybrid Scan:混合多种扫描方法,Mambamixer 的 Switch of Scan

关键洞察:Stereo Scan 比 Flatten Scan 能捕获更丰富的知识,因为引入了额外的建模维度。

1.3 Memory Management

SSM 的隐藏状态是压缩记忆,如何管理它影响到长程依赖的保真度。

  • HiPPO 初始化:用 Legendre 多项式初始化 A 矩阵,保证对历史的均匀压缩
  • DenseMamba:密集连接,将浅层 hidden states 选择性集成到深层,防止信息丢失
  • Hidden State Suppressing(DGMamba):域泛化中抑制隐藏状态的负面影响
  • 输入依赖的 transition matrices:Mamba® 通过输入依赖的 A 矩阵实现状态追踪和排列组合
第二章
数据适配:Mamba 如何处理不同类型的数据

2.1 序列数据

数据类型典型任务代表工作
自然语言长上下文语言建模MambaByte(byte 级)、Jamba(MoE 混合)、BlackMamba
视频视频理解与生成VideoMamba、DiS(Diffusion+SSM)
时间序列长期预测Mambaformer(混合)、HiSS(分层 SSM)
语音语音分离DPMamba、SPMamba
人体运动运动理解MotionMamba

2.2 非序列数据

将非序列数据(图像、图、点云)转化为 token 序列是核心思路。

  • 图像:patch 化 → patch 序列 → SSM 扫描(Vim、VMamba、PlainMamba)
  • 图数据:Graph Mamba 将图结构数据重排为特定顺序的 token 序列,解决 over-smoothing 问题
  • 点云:Point Mamba / 4D PtGaussians 等将点云序列化处理

2.3 多模态数据

Vision-Language 多模态:RoboMamba(视觉编码器 + Mamba)、Mamba-LLMs。

核心挑战:如何对齐视觉 token 序列和语言 token 序列,让 Mamba 的选择性机制在多模态融合中发挥作用。

第三章
应用领域:七大场景的真实收益

3.1 医疗健康

Mamba 在 3D 医学影像上的优势最为明显——3D 数据 token 数极大,SSM 的线性复杂度直接转化为显存和速度收益。

典型工作:MedMamba(CNN + Visual Mamba)、U-Mamba(U-Net + Mamba)、VM-UNet。对比传统 U-Net,SSM 提供了更强的长程依赖捕获能力,尤其在 CT/MRI 的切片间依赖上。

3.2 自动驾驶与遥感

遥感图像 token 数大(高分辨率、多光谱),ChangeMamba 通过时空扫描实现变化检测,Swin 等方法在高分辨率遥感上效率不足的问题被 Mamba 缓解。

3.3 推荐系统

用户行为序列长度可达数千,LLaMA 等 Transformer 的 KV cache 成为瓶颈。RecMamba 在 lifelong 场景(序列 ≥ 2k)下训练时间降低 70%,显存降低 80%。这是 SSM 线性复杂度的直接应用。

3.4 代码生成与 DNA 分析

CodeMamba 发现 Mamba 在代码补全和代码理解任务上与 Transformer 持平甚至更优。SMILES-Mamba 用 Mamba 处理小分子药物的 ADMET 预测。序列越长,Mamba 的效率优势越明显

3.5 机器人与具身智能

RoboMamba:视觉编码器 + Mamba 的端到端机器人 MLLM,视觉-语言对齐 + 机器人专用推理,高效微调。

MaIL:用 Mamba 作为模仿学习策略 backbone,效率与性能兼顾。

第四章
挑战与未来方向

4.1 Mamba-based Foundation Models

Transformer 已经证明了大模型(billion 参数级别)在 zero-shot 上的能力。Mamba 的线性复杂度为特定领域的小型 Foundation Model 提供了新路径——可以在更少计算资源下达到相近的建模能力。

4.2 硬件感知计算的进一步优化

Mamba-1 的 Parallel Associative Scan 和 Mamba-2 的 Block-decomposition Matrix Multiplication 是好的开始,但 GPU/TPU 的潜力还未被充分挖掘。FlashButterfly 等新算法可能进一步优化硬件利用率

4.3 可信 Mamba:Safety & Fairness & Explainability & Privacy

维度核心问题潜在方案
Safety & Robustness对抗扰动可影响 Mamba 输出对抗训练、输入预处理
Fairness训练数据偏见会传递到输出去偏技术、公平性约束
ExplainabilitySSM 的"黑盒"程度比 attention 更严重状态可视化、机制解释
Privacy联邦学习 + Mamba 的结合尚未充分探索差分隐私、联邦学习

4.4 从 Transformer 向 Mamba 迁移技术

SSD 框架建立了 SSM 和 attention 的共同 vocabulary,这为迁移 Transformer 技术创造了条件:

  • PEFT(参数高效微调):LoRA、Adapter 等在 Mamba 上的应用尚不成熟,但潜力明显
  • Flash Attention 类技术可以迁移到 SSM 的并行扫描优化
  • MoE:Jamba 已经验证了 MoE + Mamba 的可行性
总结
这篇综述的核心价值

这篇 ACM 综述最有价值的地方不是列举论文,而是将离散的论文重组为有结构的知识体系——三个技术维度(Block Design / Scanning Mode / Memory Management)和七大应用领域构成了一张完整的研究地图。

判断:Mamba 的研究还在早期,很多方向(尤其是可信 Mamba、PEFT 迁移)都远未成熟。真正的机会在于:当你在某个特定领域遇到 Transformer 的效率瓶颈时,Mamba 的线性复杂度是一条可以尝试的路径——这篇综述告诉你前人已经走了多远、哪里还有空白。