Transformers are SSMs: Structured State Space Duality

2026/05/23 17:56:13

AI架构·8 min read

Mamba State Space Model SSM 半可分矩阵序列建模 Tensor Parallelism

核心发现

为什么 SSM 和 Transformer 是一回事？

Transformers are SSMs 这篇论文的核心贡献，是揭示了一个看似矛盾的数学事实：

结构化半可分矩阵（Structured Semiseparable Matrices）

SSM 的递归产生的矩阵—— $K = (C, CA, CA^2, ..., CA^{L-1})$ ——恰好是下三角半可分矩阵。这类矩阵同时具有两种计算路径：

SSM 递归路径： $$y = ssm(x)$$ ，O(L) 内存，O(L) 计算
Attention 分解路径： $$y = Sx$$ ，O(L²) 内存，O(L²) 计算

两种路径计算的是完全相同的矩阵乘法，只是利用了不同的数学性质。

这意味着 SSM 和 attention 是同一类矩阵的不同计算视角——SSM 利用半可分结构的高效递归计算，attention 则利用矩阵分解的标准二次路径。Mamba-1 的硬件感知并行扫描，本质上是在 SRAM 中计算 SSM 路径，避免 HBM 的 IO 开销。

第一部分

Structured State Space Duality（SSD）理论

1.1 从 SSM 矩阵到半可分矩阵

给定 LTI SSM： $h_{t+1} = Ah_t + Bx_t$ ， $$y_t = Ch_t$$ ，展开后得到输出序列：

$y = (C, CA, CA^2, ..., CA^{L-1})x$

这是一个 $L \times L$ 的下三角矩阵乘法。每个列块（对应每个时间步的输入如何影响所有后续输出）由 $$CA^k$$ 给出，其中 A 是 N×N 对角矩阵（N 是 state dimension）。

关键性质：对于对角 A，这个矩阵恰好是下三角半可分矩阵——每个子矩阵的秩不超过 N。这使得：

可以用 SSM 递归路径高效计算（O(L)）
可以用 attention 矩阵分解路径精确计算（O(L²)）

1.2 SSD 算法

SSD 算法的核心：在 SSM 路径和 Attention 路径之间切换，利用半可分矩阵的结构化性质。

SSD 算法利用这一对偶性，在不同场景下选择最高效的计算路径：

短序列：attention 路径（并行计算优势）
长序列：SSM 路径（线性递归优势）
混合架构：Mamba-2 的 GVA head 支持两者混合

1.3 与标准 SSM 的关键区别

维度	Mamba-1 SSM	SSD / Mamba-2
理论基础	硬件感知并行扫描	半可分矩阵对偶性
并行度	序列并行（有限）	Tensor Parallelism
State size	固定小（N=16）	可达 8×（N=128）
训练速度	3× vs S4	2-8× vs Mamba-1
推理	O(L) 递归，常数 cache	同左

第二部分

Mamba-2 架构：从 SSM 到 GVA

2.1 Grouped Value Attention（GVA）Head

Mamba-2 最重要的架构变化是引入Grouped Value Attention (GVA) head——类比 Transformer 的 multi-head attention：

Transformer：Q, K, V 三个投影，各自 head 数 × head dimension = d_model

Mamba-2 GVA：输入 x → Δ, B, C 三个投影，其中 B, C 输出矩阵（维度 N），然后 group 为 g 组

GVA 的关键设计：把 state dimension N 分成 g 组，每组独立计算后拼接。这使得：

并行度更高（组间可以并行）
Tensor Parallelism 成为可能（每组独立，可跨 GPU 分片）
表达能力更强（更多独立的状态向量）

2.2 参数投影的位置变化

Mamba-1：SSM 参数（Δ, B, C）在 block 内部按时间步顺序计算（串行瓶颈）。

Mamba-2：所有投影移到 block 开头并行执行，大幅提升训练效率。

2.3 与 Transformer 的完整对应关系

Transformer 组件	Mamba-2 对应组件	关键区别
Q, K, V 投影	Δ, B, C 投影	B, C 是输入依赖的（选择性）
Attention score	SSM 递归	O(L) vs O(L²)，状态压缩
Multi-head attention	GVA head	每组独立 state，group 拼接
FFN	主分支 Linear+SiLU	结构相近
Flash Attention	硬件感知并行扫描	都利用硬件特性优化 IO

2.4 架构图

Mamba-2 Block 架构图。输入 x 经过 Δ, B, C 投影后，分组为 g 个 GVA head，计算后输出。

第三部分

Tensor Parallelism：打破单卡限制

3.1 为什么 Mamba-1 不支持 Tensor Parallelism

Mamba-1 的递归形式天然是序列并行的，但无法跨 GPU 分片计算——因为 SSM 参数（Δ, B, C）是时间步依赖的，必须按顺序计算。跨 GPU 分片需要同步中间状态，开销抵消了并行的收益。

3.2 Mamba-2 如何支持 Tensor Parallelism

GVA head 的关键性质：每组的输出可以独立计算。这意味着可以把不同的 GVA head 组分配到不同的 GPU 上，每组独立计算后 All-Gather 聚合。

类比 Megatron 的设计理念：Transformer 的多头机制使得跨 GPU 分片成为可能；Mamba-2 的 GVA head 提供了相同的并行基础。

3.3 实际收益

Mamba-2 在大模型（2.7B+ 参数）场景下支持多 GPU 并行训练，使得模型规模可以继续扩展，而不受单卡显存限制。

第四部分

实验验证：SSD 理论的实际收益

4.1 速度与显存基准

Mamba-2 在不同序列长度下的训练速度对比 Mamba-1：

短序列（≤ 512）：Mamba-2 接近 Mamba-1
中等序列（512-2048）：Mamba-2 快 2-4×
长序列（≥ 4096）：Mamba-2 快 4-8×

4.2 State Size 的影响

更大的 state dimension N 带来了更强的表达能力——模型可以在状态向量中存储更多信息：

N=16（Mamba-1 等效）：标准 SSM 规模
N=64：2-4× 表达能力提升
N=128：支持 8× 更大的 state size，Mamba-2 独有

4.3 语言建模基准

Mamba-2（2.7B 参数）在标准语言建模 benchmark 上与 Transformer 持平，推理速度 5× 于 Transformer。

4.4 激活值分析

Mamba-2 的激活值分析：选择机制使得模型对不同输入内容产生差异化响应。

总结

Mamba-2 / SSD 的核心贡献

SSD 的理论意义

Transformers are SSMs 不只是一篇工程论文，更是一篇理论论文。它揭示了：

SSM 和 attention 是同一类数学对象的不同计算视角
半可分矩阵结构是两者统一的理论基础
这种统一性为混合架构设计开辟了新路径

判断：Mamba-2 的真正意义不在于"比 Mamba-1 快"，而在于证明了 SSM 的理论深度足以支撑大规模的工程实践。SSD 理论让 Mamba 从"一个有趣的替代方案"变成了"可以和 Transformer 分庭抗礼的正式架构"。

对视觉 Mamba 的影响

视觉 Mamba 的后续发展（Vim、VMamba 等）都受益于 Mamba-2 的理论框架。SSD 对偶性让视觉任务可以在 SSM 路径和 attention 路径之间灵活切换，针对不同任务类型选择最优计算路径。

参考来源

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality (Dao & Gu, 2024)