A Survey of Mamba：状态空间模型的全面综述

2026/05/23 18:12:17

AI架构·10 min read

研究背景

为什么需要这篇综述

Transformer 统治 AI 领域多年，但在长序列上的 O(L²) 计算成本始终是痛点。Mamba 通过选择性状态空间模型（Selective SSM）实现了近线性复杂度的序列建模，但相关研究在 2024 年呈现爆发式增长：语言、视频、时间序列、医学、遥感、推荐系统等各个领域都有 Mamba 的身影。

这篇综述（ACM，2024）的核心价值在于：第一次把 Mamba 相关研究系统化重组，从三个维度组织已有工作——架构设计、数据适配、应用领域。这比分散的论文列表更有价值，因为能看清技术演进的内在逻辑。

第一章

架构设计：从 Block Design 到 Memory Management

Mamba 相关工作的架构创新可以归纳为三个维度：Block Design（如何用 Mamba block 构建模型）、Scanning Mode（如何组织扫描路径）、Memory Management（如何管理隐藏状态）。

1.1 Block Design：三种构建策略

Block Design 回答的问题是：如何用 Mamba block 构建完整的模型？论文归纳出三种策略：

策略	描述	典型案例
Integration（融合）	将 Mamba block 与其他架构（Transformer、GNN、RNN、CNN、SNN）结合	Jamba（Transformer+Mamba）、Graph Mamba（Mamba+GNN）
Substitution（替代）	用 Mamba block 替换经典框架的核心层	MambaUNet（Mamba 替换 U-Net 主干）、DiS（Mamba 替换 Diffusion backbone）
Modification（改造）	修改 Mamba block 内部组件	Jamba（MoE）、Sigma（K-way 并行 SSM）、Mamba®（register tokens）

最有代表性的是 Jamba（混合 Transformer + Mamba）——12B 活跃参数，4GB KV cache（对比 LLaMA-2-70B 的 128GB），单卡 A100 支持 140K 上下文。这是 MoE 与选择性 SSM 的联合收益。

1.2 Scanning Mode：从 Flatten 到 Stereo

Mamba 的递归是一维的，而图像、视频、图数据是 2D/3D 的。Scanning Mode 要解决的核心问题是：如何把 2D/3D 数据展平为适合 SSM 的序列，同时保留空间/时间结构。

综述将扫描方法分为两大类：

Flatten Scan（扁平扫描）

Bidirectional Scan：前向+后向 SSM 同时处理，Vim、Speech 任务常用
Sweeping Scan：沿特定方向清扫式扫描（类似扫地），Cross-Scan（四向）、Omni-Scan（8向）
Continuous Scan：相邻 token 之间连续扫描（Hilbert 曲线），保留语义连续性
Efficient Scan：跳 patch 并行处理，降低计算量

Stereo Scan（立体扫描）

Hierarchical Scan：多尺度扫描，全局→局部（HiSS chunk 分级）
Spatiotemporal Scan：时空联合扫描，VideoMamba 的 Spatial-First / Temporal-First
Hybrid Scan：混合多种扫描方法，Mambamixer 的 Switch of Scan

关键洞察：Stereo Scan 比 Flatten Scan 能捕获更丰富的知识，因为引入了额外的建模维度。

1.3 Memory Management

SSM 的隐藏状态是压缩记忆，如何管理它影响到长程依赖的保真度。

HiPPO 初始化：用 Legendre 多项式初始化 A 矩阵，保证对历史的均匀压缩
DenseMamba：密集连接，将浅层 hidden states 选择性集成到深层，防止信息丢失
Hidden State Suppressing（DGMamba）：域泛化中抑制隐藏状态的负面影响
输入依赖的 transition matrices：Mamba® 通过输入依赖的 A 矩阵实现状态追踪和排列组合

第二章

数据适配：Mamba 如何处理不同类型的数据

2.1 序列数据

数据类型	典型任务	代表工作
自然语言	长上下文语言建模	MambaByte（byte 级）、Jamba（MoE 混合）、BlackMamba
视频	视频理解与生成	VideoMamba、DiS（Diffusion+SSM）
时间序列	长期预测	Mambaformer（混合）、HiSS（分层 SSM）
语音	语音分离	DPMamba、SPMamba
人体运动	运动理解	MotionMamba

2.2 非序列数据

将非序列数据（图像、图、点云）转化为 token 序列是核心思路。

图像：patch 化 → patch 序列 → SSM 扫描（Vim、VMamba、PlainMamba）
图数据：Graph Mamba 将图结构数据重排为特定顺序的 token 序列，解决 over-smoothing 问题
点云：Point Mamba / 4D PtGaussians 等将点云序列化处理

2.3 多模态数据

Vision-Language 多模态：RoboMamba（视觉编码器 + Mamba）、Mamba-LLMs。

核心挑战：如何对齐视觉 token 序列和语言 token 序列，让 Mamba 的选择性机制在多模态融合中发挥作用。

第三章

应用领域：七大场景的真实收益

3.1 医疗健康

Mamba 在 3D 医学影像上的优势最为明显——3D 数据 token 数极大，SSM 的线性复杂度直接转化为显存和速度收益。

典型工作：MedMamba（CNN + Visual Mamba）、U-Mamba（U-Net + Mamba）、VM-UNet。对比传统 U-Net，SSM 提供了更强的长程依赖捕获能力，尤其在 CT/MRI 的切片间依赖上。

3.2 自动驾驶与遥感

遥感图像 token 数大（高分辨率、多光谱），ChangeMamba 通过时空扫描实现变化检测，Swin 等方法在高分辨率遥感上效率不足的问题被 Mamba 缓解。

3.3 推荐系统

用户行为序列长度可达数千，LLaMA 等 Transformer 的 KV cache 成为瓶颈。RecMamba 在 lifelong 场景（序列 ≥ 2k）下训练时间降低 70%，显存降低 80%。这是 SSM 线性复杂度的直接应用。

3.4 代码生成与 DNA 分析

CodeMamba 发现 Mamba 在代码补全和代码理解任务上与 Transformer 持平甚至更优。SMILES-Mamba 用 Mamba 处理小分子药物的 ADMET 预测。序列越长，Mamba 的效率优势越明显。

3.5 机器人与具身智能

RoboMamba：视觉编码器 + Mamba 的端到端机器人 MLLM，视觉-语言对齐 + 机器人专用推理，高效微调。

MaIL：用 Mamba 作为模仿学习策略 backbone，效率与性能兼顾。

第四章

挑战与未来方向

4.1 Mamba-based Foundation Models

Transformer 已经证明了大模型（billion 参数级别）在 zero-shot 上的能力。Mamba 的线性复杂度为特定领域的小型 Foundation Model 提供了新路径——可以在更少计算资源下达到相近的建模能力。

4.2 硬件感知计算的进一步优化

Mamba-1 的 Parallel Associative Scan 和 Mamba-2 的 Block-decomposition Matrix Multiplication 是好的开始，但 GPU/TPU 的潜力还未被充分挖掘。FlashButterfly 等新算法可能进一步优化硬件利用率。

4.3 可信 Mamba：Safety & Fairness & Explainability & Privacy

维度	核心问题	潜在方案
Safety & Robustness	对抗扰动可影响 Mamba 输出	对抗训练、输入预处理
Fairness	训练数据偏见会传递到输出	去偏技术、公平性约束
Explainability	SSM 的"黑盒"程度比 attention 更严重	状态可视化、机制解释
Privacy	联邦学习 + Mamba 的结合尚未充分探索	差分隐私、联邦学习

4.4 从 Transformer 向 Mamba 迁移技术

SSD 框架建立了 SSM 和 attention 的共同 vocabulary，这为迁移 Transformer 技术创造了条件：

PEFT（参数高效微调）：LoRA、Adapter 等在 Mamba 上的应用尚不成熟，但潜力明显
Flash Attention 类技术可以迁移到 SSM 的并行扫描优化
MoE：Jamba 已经验证了 MoE + Mamba 的可行性

总结

这篇综述的核心价值

这篇 ACM 综述最有价值的地方不是列举论文，而是将离散的论文重组为有结构的知识体系——三个技术维度（Block Design / Scanning Mode / Memory Management）和七大应用领域构成了一张完整的研究地图。

判断：Mamba 的研究还在早期，很多方向（尤其是可信 Mamba、PEFT 迁移）都远未成熟。真正的机会在于：当你在某个特定领域遇到 Transformer 的效率瓶颈时，Mamba 的线性复杂度是一条可以尝试的路径——这篇综述告诉你前人已经走了多远、哪里还有空白。

参考来源

A Survey of Mamba (Qu et al., ACM 2024)