ESC
输入关键词搜索文章
目录

Transformers are SSMs

NeurIPS 2024 · 语言模型
SSM 与 Attention 的统一框架:半可分矩阵理论
2-8×Mamba-2 训练速度 vs Mamba-1
支持更大的 state size
O(L)两种路径共享同一复杂度上界
TensorMamba-2 支持 Parallelism
核心发现
为什么 SSM 和 Transformer 是一回事?

Transformers are SSMs 这篇论文的核心贡献,是揭示了一个看似矛盾的数学事实:

结构化半可分矩阵(Structured Semiseparable Matrices)

SSM 的递归产生的矩阵——$K = (C, CA, CA^2, ..., CA^{L-1})$——恰好是下三角半可分矩阵。这类矩阵同时具有两种计算路径:

  • SSM 递归路径$y = ssm(x)$,O(L) 内存,O(L) 计算
  • Attention 分解路径$y = Sx$,O(L²) 内存,O(L²) 计算

两种路径计算的是完全相同的矩阵乘法,只是利用了不同的数学性质。

这意味着 SSM 和 attention 是同一类矩阵的不同计算视角——SSM 利用半可分结构的高效递归计算,attention 则利用矩阵分解的标准二次路径。Mamba-1 的硬件感知并行扫描,本质上是在 SRAM 中计算 SSM 路径,避免 HBM 的 IO 开销。

第一部分
Structured State Space Duality(SSD)理论

1.1 从 SSM 矩阵到半可分矩阵

给定 LTI SSM:$h_{t+1} = Ah_t + Bx_t$$y_t = Ch_t$,展开后得到输出序列:

$y = (C, CA, CA^2, ..., CA^{L-1})x$

这是一个 $L \times L$ 的下三角矩阵乘法。每个列块(对应每个时间步的输入如何影响所有后续输出)由 $CA^k$ 给出,其中 A 是 N×N 对角矩阵(N 是 state dimension)。

关键性质:对于对角 A,这个矩阵恰好是下三角半可分矩阵——每个子矩阵的秩不超过 N。这使得:

  • 可以用 SSM 递归路径高效计算(O(L))
  • 可以用 attention 矩阵分解路径精确计算(O(L²))

1.2 SSD 算法

SSD 算法示意图
SSD 算法的核心:在 SSM 路径和 Attention 路径之间切换,利用半可分矩阵的结构化性质。

SSD 算法利用这一对偶性,在不同场景下选择最高效的计算路径:

  • 短序列:attention 路径(并行计算优势)
  • 长序列:SSM 路径(线性递归优势)
  • 混合架构:Mamba-2 的 GVA head 支持两者混合

1.3 与标准 SSM 的关键区别

维度Mamba-1 SSMSSD / Mamba-2
理论基础硬件感知并行扫描半可分矩阵对偶性
并行度序列并行(有限)Tensor Parallelism
State size固定小(N=16)可达 8×(N=128)
训练速度3× vs S42-8× vs Mamba-1
推理O(L) 递归,常数 cache同左
第二部分
Mamba-2 架构:从 SSM 到 GVA

2.1 Grouped Value Attention(GVA)Head

Mamba-2 最重要的架构变化是引入Grouped Value Attention (GVA) head——类比 Transformer 的 multi-head attention:

Transformer:Q, K, V 三个投影,各自 head 数 × head dimension = d_model

Mamba-2 GVA:输入 x → Δ, B, C 三个投影,其中 B, C 输出矩阵(维度 N),然后 group 为 g 组

GVA 的关键设计:把 state dimension N 分成 g 组,每组独立计算后拼接。这使得:

  • 并行度更高(组间可以并行)
  • Tensor Parallelism 成为可能(每组独立,可跨 GPU 分片)
  • 表达能力更强(更多独立的状态向量)

2.2 参数投影的位置变化

Mamba-1:SSM 参数(Δ, B, C)在 block 内部按时间步顺序计算(串行瓶颈)。

Mamba-2:所有投影移到 block 开头并行执行,大幅提升训练效率。

2.3 与 Transformer 的完整对应关系

Transformer 组件Mamba-2 对应组件关键区别
Q, K, V 投影Δ, B, C 投影B, C 是输入依赖的(选择性)
Attention scoreSSM 递归O(L) vs O(L²),状态压缩
Multi-head attentionGVA head每组独立 state,group 拼接
FFN主分支 Linear+SiLU结构相近
Flash Attention硬件感知并行扫描都利用硬件特性优化 IO

2.4 架构图

Mamba-2 架构图
Mamba-2 Block 架构图。输入 x 经过 Δ, B, C 投影后,分组为 g 个 GVA head,计算后输出。
第三部分
Tensor Parallelism:打破单卡限制

3.1 为什么 Mamba-1 不支持 Tensor Parallelism

Mamba-1 的递归形式天然是序列并行的,但无法跨 GPU 分片计算——因为 SSM 参数(Δ, B, C)是时间步依赖的,必须按顺序计算。跨 GPU 分片需要同步中间状态,开销抵消了并行的收益。

3.2 Mamba-2 如何支持 Tensor Parallelism

GVA head 的关键性质:每组的输出可以独立计算。这意味着可以把不同的 GVA head 组分配到不同的 GPU 上,每组独立计算后 All-Gather 聚合。

类比 Megatron 的设计理念:Transformer 的多头机制使得跨 GPU 分片成为可能;Mamba-2 的 GVA head 提供了相同的并行基础。

3.3 实际收益

Mamba-2 在大模型(2.7B+ 参数)场景下支持多 GPU 并行训练,使得模型规模可以继续扩展,而不受单卡显存限制。

第四部分
实验验证:SSD 理论的实际收益

4.1 速度与显存基准

Mamba-2 在不同序列长度下的训练速度对比 Mamba-1:

  • 短序列(≤ 512):Mamba-2 接近 Mamba-1
  • 中等序列(512-2048):Mamba-2 快 2-4×
  • 长序列(≥ 4096):Mamba-2 快 4-8×

4.2 State Size 的影响

更大的 state dimension N 带来了更强的表达能力——模型可以在状态向量中存储更多信息:

  • N=16(Mamba-1 等效):标准 SSM 规模
  • N=64:2-4× 表达能力提升
  • N=128:支持 8× 更大的 state size,Mamba-2 独有

4.3 语言建模基准

Mamba-2(2.7B 参数)在标准语言建模 benchmark 上与 Transformer 持平,推理速度 5× 于 Transformer。

4.4 激活值分析

激活值分析
Mamba-2 的激活值分析:选择机制使得模型对不同输入内容产生差异化响应。
总结
Mamba-2 / SSD 的核心贡献

SSD 的理论意义

Transformers are SSMs 不只是一篇工程论文,更是一篇理论论文。它揭示了:

  1. SSM 和 attention 是同一类数学对象的不同计算视角
  2. 半可分矩阵结构是两者统一的理论基础
  3. 这种统一性为混合架构设计开辟了新路径
判断:Mamba-2 的真正意义不在于"比 Mamba-1 快",而在于证明了 SSM 的理论深度足以支撑大规模的工程实践。SSD 理论让 Mamba 从"一个有趣的替代方案"变成了"可以和 Transformer 分庭抗礼的正式架构"

对视觉 Mamba 的影响

视觉 Mamba 的后续发展(Vim、VMamba 等)都受益于 Mamba-2 的理论框架。SSD 对偶性让视觉任务可以在 SSM 路径和 attention 路径之间灵活切换,针对不同任务类型选择最优计算路径。