从自身 Latents 学习，而非 Tokens：样本复杂度理论深度解读

2026/06/01 23:52:36·2026/06/02 09:40:00

AI架构·26 min read

Part 1

生物学习者用更少数据做到更多

扩散模型能生成以假乱真的图像，大语言模型能掌握语法、世界知识与推理能力。但这两类生成模型共享同一个配方：在原始信号的层面——像素或 token——进行大规模预测。这个配方带来的成功，伴随着一个生物学习者无需付出的代价：前沿 LLM 的训练数据量达到 $10^{13}$ – $10^{14}$ 个 token，比儿童在达到成人水平前接触到的语言输入多出超过五个数量级；SOTA 扩散模型 likewise 依赖数十亿张图像。

这个差距指向一个根本性问题：token-level 预训练在样本效率上远非最优。一个自然假设是，学习可能不是在原始 token 层面最高效地发生，而是在更抽象的潜在空间中。事实上，近年来一系列方法——从 BYOL、DINO 到 data2vec 和 JEPA——都在践行同一个思想：让网络预测自身的潜在表示（latent representations），而非原始输入的重建。这与计算神经科学中的预测编码理论不谋而合：皮层所寻求的，是预测其自身的未来活动。

核心问题：latent prediction 究竟能在多大程度上提升样本效率？将这类方法显式堆叠成多尺度层次结构（如 H-JEPA），是否真能带来额外收益？

本文解读的是 Korchinski、Favero 与 Wyart 于 2025 年 5 月发表在 arXiv 上的理论工作 #Korchinski et al., 2025。作者选择了一个可精确解析的合成数据模型——Random Hierarchy Model (RHM)——来定量回答上述问题。核心结论极具冲击力：对于具有层次潜在结构的数据，监督学习需要 $\sim m^L$ 样本，token-level 自监督学习需要 $\sim m^{L+1}$ 样本，而从自身 latents 学习仅需 $\sim m^3$ 样本——与树深度 $$L$$ 无关，仅含对数因子。这意味着 latent prediction 在理论上可以将样本复杂度从指数级降低到常数级。

论文还通过分析 data2vec 首次证明：单个 latent-prediction 模块已隐式执行多尺度层次发现，从而对显式堆叠架构（如 H-JEPA）的必要性提出了根本性质疑。

Part 2

一个玩具模型看清问题：Random Hierarchy Model

要理解为什么 token-level 学习样本效率低，我们需要一个能精确控制层次结构的合成数据模型。作者沿用了他们此前提出的 Random Hierarchy Model (RHM) #Cagnetta et al., 2024，一个简化的概率上下文无关文法（PCFG）。

RHM 的生成规则

RHM 定义在一棵固定的正则树上：深度为 $$L$$ ，分支因子为 $$s$$ ，每一层 $\ell = 0, 1, \ldots, L$ 都有一个大小为 $$v$$ 的词汇表 $\mathcal{V}_\ell$ 。第 0 层是可见层（visible tokens），第 1 到 $$L$$ 层是潜在层（latent symbols）。可见序列长度为 $$s^L$$ 。

生成过程自上而下：根节点 $h_1^{(L)}$ 从 $\mathcal{V}_L$ 均匀采样；若父节点 $h_u^{(\ell+1)} = a$ ，则其子元组 $T_u^{(\ell)} = (h_{(u-1)s+1}^{(\ell)}, \ldots, h_{us}^{(\ell)})$ 从规则集 $\mathcal{R}_{\ell,a}$ 中均匀采样。每个规则集包含 $$m$$ 个不同的 $$s$$ -元组，整个文法通过从 $\mathcal{V}_\ell^s$ 中无放回地选取 $$vm$$ 个元组并划分为 $$v$$ 个大小为 $$m$$ 的组来随机生成。关键参数 $f = m / v^{s-1}$ 表示合法元组在所有可能元组中的比例。

同义词（Synonyms）

若两个 grammatical 元组 $\nu, \nu' \in \mathcal{S}_\ell$ 具有相同的父节点，则称它们为同义词。由于规则映射是单射，文法是无歧义的：每个合法元组有唯一的父节点。学习 RHM 的本质，就是学习对同义词交换的不变性。

统计信号：Connected Correlation

学习同义词不变性的统计信号来自 connected correlation。设 $T^{(\ell)}$ 是一个层级- $\ell$ 的 $$s$$ -元组， $$Z$$ 是树中另一位置的可观测量：

C_Z(\nu, z) := \mathbb{P}[T^{(\ell)} = \nu, Z = z] - \mathbb{P}[T^{(\ell)} = \nu] \, \mathbb{P}[Z = z]

核心观察来自 #Cagnetta et al., 2024：若

\nu, \nu'

是同义词，则对任何仅通过父节点依赖该元组的观测

$Z$

，都有

C_Z(\nu, \cdot) = C_Z(\nu', \cdot)

。这意味着同义词对相同的上下文具有完全相同的统计关联模式，因此可以通过聚类恢复。

信号衰减定律

学习目标	预测目标 $$Z$$	树距离	样本复杂度
监督学习	根节点标签	$L - \ell$	$\sim m^L$
Token-level SSL	被掩码的 token	$L - \ell + 1$	$\sim m^{L+1}$
Latent prediction	Cousin tuple 中的 latent	2（固定）	$\sim m^3$

ILC：逐层聚类恢复层次树

Iterative Latent Clustering (ILC) 是一个自底向上的分层聚类算法，其目标是从仅包含可见 token 的样本中，恢复完整的非根潜在树

h^{(1)}, \ldots, h^{(L-1)}

。算法流程极为简洁：

初始化：将可见 token 直接作为第 0 层潜在表示， $\hat{h}_i^{(0)} = x_i$ 。
迭代上升：对每层 $\ell = 0, \ldots, L-2$：
- 从当前层估计值构造所有层级- $\ell$ 的 $$s$$ -元组 $\hat{T}_u^{(\ell)}$
- 将观察到的元组集合作为合法元组支持集 $\hat{\mathcal{S}}_\ell$ 的估计
- 对 $\hat{\mathcal{S}}_\ell$ 中每个元组 $\nu$ ，统计其出现次数 $N(\nu)$ ，并计算 empirical cousin context vector： $\hat{\phi}_\ell(\nu) := \frac{1}{N(\nu)} \sum_{p=1}^{P} \mathbf{1}\{\hat{T}_\ell^{(p)} = \nu\} \, e_{\hat{Z}_\ell^{(p)}}$
  其中 $\hat{Z}_\ell^{(p)}$ 是与 $\hat{T}_\ell^{(p)}$ 共享祖父节点的 cousin tuple 中的固定元素。
- 使用聚类模块将上下文向量聚为 $$v$$ 类
- 将聚类身份作为下一层潜在标签： $\hat{h}_u^{(\ell+1)} = a \iff \hat{T}_u^{(\ell)} \in \hat{\mathcal{S}}_{\ell,a}$
输出：估计的非根层次结构 $\hat{h}^{(1)}, \ldots, \hat{h}^{(L-1)}$ 。

核心设计直觉：同义词在条件于其共同父节点时，其 cousin 分支的统计分布完全相同，因此它们的上下文向量完全一致。聚类可以将同义词类识别出来，从而重建父节点标签。关键在于始终使用 cousin tuple（树距离=2）作为观测目标，信号衰减被控制在

$1/m$

。

SLC：端到端的 Latent Prediction 网络

ILC 证明了 latent prediction 在算法层面的样本效率优势，但一个自然的问题是：这个优势能否通过标准的端到端梯度下降训练获得？Stacked Latent Clustering (SLC) 给出了肯定的答案。

SLC 由 $$L-1$$ 个堆叠的 predictor-clusterer 模块组成，每个模块对应 RHM 的一个层级：

graph TD
  A["Input Tokens h(0)"] --> M0["Module 0"]
  M0 -->|"h(1)"| M1["Module 1"]
  M1 -->|"h(2)"| M2["..."]
  M2 -->|"h(L-2)"| ML["Module L-2"]
  ML -->|"h(L-1)"| OUT["Output"]

  subgraph SLC["Module l Structure"]
    IN["s tokens, dim d_h"] --> PRED["Predictor CNN1-CNN2-CNN3"]
    PRED --> PHI["Prediction phi(l)"]
    PHI --> CLUST["Clusterer CNN4-CNN5-Softmax"]
    CLUST --> Q["Soft Assignment q(l+1), v classes"]
  end

Predictor 子模块：输入是前一层（或原始 token）的

$s$

个

$d_h$

维表示，通过三层 1D 卷积（CNN₁ stride-s，CNN₂ 和 CNN₃ stride-1，中间插入 ReLU+BatchNorm），最终输出对 cousin patch 中 token 身份的预测分布。形式化地：

\text{Pred}^{(\ell)}(x) = \text{SM} \circ \text{CNN}_3 \circ A \circ \text{CNN}_2 \circ A \circ \text{CNN}_1(x)

其中

A = \text{ReLU} \circ \text{BN}

，SM 为 softmax。 Clusterer 子模块：将 predictor 输出 flattened 后映射为

$v$

维软聚类分配：

q^{(\ell+1)} = \text{SM}\bigl( \text{Clust}^{(\ell)}(\hat{\phi}^{(\ell)}) \bigr) = \text{SM}\bigl( \text{CNN}_5 \circ A \circ \text{CNN}_4(\hat{\phi}^{(\ell)}) \bigr)

这里的关键设计是 sparse assignment：在 softmax 约束 $\|q_i\|_1 = 1$ 下，通过最大化 $\|q_i\|_2^2$ 鼓励稀疏（one-hot-like）分配，提升训练稳定性和可解释性。

data2vec 隐式执行层次化 Latent Prediction

论文的第三个结果是对 data2vec #Baevski et al., 2022 的首个样本复杂度分析。data2vec 的标准架构包括：学生编码器处理掩码输入（mask probability 0.15），教师编码器处理完整输入（EMA decay $\mu = 0.99$ ），取顶部 $$K=4$$ 层表示平均作为目标。

作者的核心发现是：在 RHM 数据上训练时，data2vec 的编码器各层会逐层发现 RHM 的潜在层次结构——较低层先学会表示较低层的潜在变量，较高层再在此基础上表示更高层的潜在变量。这与 SLC 的显式层次化设计在功能上等价，只是隐式地发生在单个深度网络的内部各层中。

核心结论：data2vec 在 RHM 上的样本复杂度同样为

\sim m^3

，与深度

$L$

无关。这意味着单个 latent-prediction 模块已隐式实现多尺度层次发现，削弱了 H-JEPA 等显式堆叠架构的必要性。

作者通过对 data2vec 编码器各层施加线性探针（linear probe）来验证这一发现。探针分析显示：随着训练进行，编码器的低层先获得区分 level-1 同义词的能力，中层随后解锁 level-2，以此类推——一种"自底向上、逐层解锁"的动态与 SLC 的显式模块训练在功能上等价。

Part 4

如何训练一个预测自身 Latents 的网络

三种方法在训练层面呈现出一个有趣的谱系：ILC 是纯粹的无参数统计估计，SLC 是多目标优化的神经网络训练，data2vec 则是标准自蒸馏框架的特例。

ILC：无参数统计估计

ILC 没有可学习的神经网络参数。其"训练"纯粹是统计估计：计算经验上下文向量和聚类。论文假设存在一个稳定的聚类模块 $\text{Cluster}_v$ （假设 2），在扰动不超过 $\Delta/8$ 时能完美恢复真实划分。每个合法元组的出现概率约为 $$1/(vm)$$ ，因此要保证 $$vm$$ 个元组都被充分采样，需要 $P \gtrsim vm \log(vm)$ 样本。结合上下文向量的分离尺度 $\Delta \sim \sqrt{(1-f)/m}$ ，最终得到样本复杂度界。

SLC：多目标梯度优化

SLC 的训练涉及三个同时优化的目标，作者使用 Jacobian descent 结合 UPGrad 算法处理多目标冲突：

SLC 损失函数

\mathcal{L} = \mathcal{L}_{\text{pred}} + \mathcal{L}_{\text{sim}} + \lambda_{\text{sep}} \mathcal{L}_{\text{sep}} + \lambda_{\text{spars}} \mathcal{L}_{\text{spars}}

$\mathcal{L}_{\text{pred}}$ ：预测损失，对 cousin patches 中真实 token 的负对数似然
$\mathcal{L}_{\text{sim}}$ ：相似性损失。若两个预测向量的余弦相似度 $S_{ij} > S_m = 0.8$ 但被分到不同簇，则惩罚
$\mathcal{L}_{\text{sep}}$ ：分离损失。若两个预测向量不相似但聚类分配重叠，则惩罚（ $\lambda_{\text{sep}} = 0.5$ ）
$\mathcal{L}_{\text{spars}}$ ：稀疏性奖励。最大化聚类分配的 $$L_2$$ 范数，鼓励 one-hot-like 分配（ $\lambda_{\text{spars}} = 10^{-2}$ ）

超参数	取值	备注
优化器	AdamW	—
学习率	$3 \times 10^{-3}$	常数，无 warmup/decay
权重衰减	$10^{-3}$	—
Batch size	32	—
EMA 衰减 $\alpha_{\text{ema}}$	0.015	teacher 更新速率
Predictor 隐藏宽度	150	CNN 中间层
聚类维度 $$d_h$$	128	默认 $d_h \gg v$ （最难情况）
相似度边界 $$S_m$$	0.8	similarity loss margin
训练 epoch	30	验证集 2000 样本 early stopping
对比采样数 $N_{\text{compare}}$	300	每批次随机选取

训练技巧：防止表示坍塌

SLC 使用 EMA teacher-student 框架防止坍塌：教师权重 $W^{(T)} \leftarrow (1-\alpha_{\text{ema}}) W^{(T)} + \alpha_{\text{ema}} W^{(S)}$ ，其中 $\alpha_{\text{ema}} = 0.015$ 。消融实验表明，即使禁用全局 EMA teacher，只要在 predictor 和 clusterer 之间加入 stop-gradient，就能防止坍塌——这使得 SLC 可以用完全局部的学习规则训练。

data2vec：标准自蒸馏

data2vec 的训练配置在论文中以完整表格给出（Table 1）。关键参数：8 层 Transformer，

d_{\text{model}} = 2048

，32 头注意力，FFN 维度 8192；AdamW 优化器，学习率

10^{-4}

（常数），batch size 512，训练 262,144 步；mask probability 0.15，span length 1；smooth L1 损失 (

\beta = 4

)。

Part 5

指数级改进的实验确认

论文通过三个互补的实验来验证理论预测：ILC/SLC 的样本复杂度缩放、SLC 的 L-scaling 行为、以及 data2vec 的隐式层次化发现。

主实验：样本复杂度 ~m³ 缩放

图 3（clustering_and_ptc_m_sweeps）展示了 ILC 和 SLC 在不同

$m$

值下的样本复杂度。对于固定的

$L=4, v=16$

，当

$m$

从 6 增加到 10 时，恢复完整层次结构所需的样本数与

$m^3$

成正比——与理论预测一致。SLC 的端到端训练完全复现了 ILC 的统计优势。

图 3：ILC 与 SLC 的样本复杂度随

$m$

的缩放行为。两条曲线均与

$m^3$

成正比，验证了理论预测（来源：论文, Fig. 3）。

L-scaling：与深度无关

图 12（ptc_L_scaling）验证了最关键的理论预测：样本复杂度与树深度

$L$

无关。作者在

$L = 4, 5, 6, 7$

上测试 SLC，发现所有深度的曲线都 collapse 到同一条

$m^3$

缩放线上。这意味着即使数据的层次结构越来越深，latent prediction 的样本效率也不会恶化——这与监督学习和 token-level SSL 形成鲜明对比。

图 12：SLC 在不同树深度

$L$

下的样本复杂度。所有深度 collapse 到同一条

$m^3$

曲线上，证明样本复杂度与

$L$

无关（来源：论文, Fig. 12）。

data2vec：逐层解锁动态

图 5（d2vec_main_online_with_pstar）展示了 data2vec 训练过程中的在线学习曲线。随着训练进行，编码器各层依次获得区分不同层级潜在变量的能力——低层先解锁 level-1，中层随后解锁 level-2，以此类推。这与 SLC 的显式逐层训练在动态上等价。

图 5：data2vec 训练过程中的在线学习曲线。编码器各层依次解锁不同层级的潜在变量，验证了隐式层次化发现（来源：论文, Fig. 5）。

图 4（d2vec_clustering_scores，Appendix D / Figure 13）进一步量化了 data2vec 各层的聚类分数。一个反直觉的观察是：深层对低层潜在变量的聚类能力反而更强（"Deeper layers exhibit stronger clustering of low-level latents"），呈现出 encoder-decoder 式的倒置现象。

图 4（Appendix D / Fig. 13）：data2vec 编码器各层对 RHM 不同层级潜在变量的聚类分数。深层对低层 latent 的聚类能力反而更强（来源：论文, Appendix D Fig. 13）。

消融实验与失败案例

消融设置	结果	含义
禁用 EMA teacher，保留 stop-gradient	训练成功	局部学习规则即可防止坍塌
禁用 EMA + 禁用 stop-gradient	表示坍塌	聚类损失压倒预测损失
$d_h \geq mv$	聚类失效	码本过大导致每个输入获唯一标签
$$f = 1$$ （所有规则存在）	自监督完全失效	输入等概率，相关性消失
Token-level SSL $m^{L+1}$ 缩放	准确率显著劣化	证实理论预测的根本性劣势

关键发现：当

$f = 1$

时（所有可能的产生式规则都存在），RHM 的所有句子等概率出现，内部相关性完全消失，此时自监督方法无法学习任何规则。这是自监督学习的一个根本性极限：它依赖于数据中的统计结构，当结构退化为均匀分布时，学习不可能发生。

Part 6

H-JEPA 是冗余的吗？

论文的核心结论——latent prediction 的样本复杂度为

\sim m^3

，与层次深度

$L$

无关——在理论上具有重大意义。但更有趣的或许是第二个结论：data2vec 已隐式执行层次化 latent prediction，这暗示 H-JEPA 等显式堆叠架构可能很大程度上是冗余的。

技术对比：三种范式的定位

维度	监督学习	Token-level SSL	Latent Prediction
核心表示	端到端判别式	原始 token 重建	自身潜在表示预测
训练目标	交叉熵分类	掩码 token 预测	latent 回归 + 聚类
样本复杂度	$\sim m^L$	$\sim m^{L+1}$	$\sim m^3$
与 $$L$$ 关系	指数	指数（更差）	无关（常数）
层次发现	隐式	无	显式/隐式
生物学关联	弱（需标签）	弱	强（预测编码）

局限性与边界条件

论文明确承认了若干局限性。首先，分析仅在 RHM 这一合成数据上进行，真实世界数据的层次结构并非严格的树形 PCFG。其次，所有方法都无法恢复根节点

h^{(L)}

，因为不存在可用于区分根 synonym 的外部信号。第三，当

$f = 1$

时自监督完全失效。第四，作者未公开官方代码实现——论文中仅提供伪代码与超参数表，复现需自行实现 ILC/SLC/data2vec 训练流程。一个需要谨慎对待的推论是：论文认为 H-JEPA 的显式堆叠"很大程度上冗余"，但 2025-2026 年出现的 V-JEPA 2.1 和 Bootleg 仍报告了 SOTA 性能。论文在 Appendix A 中分析了这些架构与 SLC 的关键区别：V-JEPA 2.1 和 Bootleg 都引入了从高层 latent 到低层目标的 high→low 预测路径，而标准 H-JEPA 缺少这一路径。Figure 6 直观展示了四种架构（H-JEPA / V-JEPA 2.1 / Bootleg / SLC）在损失目标结构上的差异。因此，"显式堆叠冗余"或许更准确地应理解为"naive 的逐层独立预测是冗余的"，但精心设计的跨层交互（尤其是 high→low 路径）仍可能有价值。

可操作的启发

对研究与工程实践的启发

样本效率的本质是统计距离：在设计自监督目标时，预测目标与上下文之间的"统计距离"（而非语义距离）决定了样本复杂度。latent prediction 的优势在于始终维持最小的树距离。
单层网络可能已足够：如果 data2vec 这样的单层 latent-prediction 模块已隐式执行多尺度发现，那么在设计新架构时，或许应优先探索如何增强单层网络的层次化能力，而非急于堆叠模块。
跨层交互是关键：如果确实需要显式层次结构，应引入 high→low 的预测路径（如 V-JEPA 2.1），而非仅做自底向上的逐层预测。
合成数据的理论价值：RHM 虽然简化，但提供了可精确计算的样本复杂度基准。在探索新的学习范式时，先用合成模型验证理论直觉，再迁移到真实数据，是一条高效的研究路径。

总结

这篇论文的价值不仅在于证明了 latent prediction 的指数级样本效率优势，更在于它提供了一个可计算的理论框架，让我们能够定量比较不同学习范式的数据效率。在生成式 AI 训练成本日益高昂的今天，理解"为什么某些方法需要更多数据"与"如何在潜在空间中更高效地学习"，具有越来越重要的现实意义。最终，论文向我们提出的问题是：如果生物大脑确实通过预测自身潜在表示来学习，那么我们的深度学习系统是否也应该更认真地对待这一范式——不仅仅是作为工程技巧，而是作为关于学习本质的一个基本假设？

参考来源

Korchinski, D. J., Favero, A., & Wyart, M. (2025). Learn from your own latents and not from tokens: A sample-complexity theory. arXiv:2605.27734v1 (2025-05). arXiv:2605.27734 — 当前为 arXiv 预印本，尚未标注会议或期刊接收状态。
Cagnetta, F., Petrini, L., Tomasini, U. M., Favero, A., & Wyart, M. (2024). How deep neural networks learn compositional data: The random hierarchy model. Physical Review X, 14, 031001. arXiv:2307.02129
Baevski, A., Hsu, W. N., Xu, Q., Babu, A., Gu, J., & Auli, M. (2022). Data2vec: A general framework for self-supervised learning in speech, vision and language. ICML 2022. arXiv:2202.03555
LeCun, Y. (2022). A path towards autonomous machine intelligence. OpenReview. OpenReview
Van Assel, H., Ibrahim, M., Biancalani, T., Regev, A., & Balestriero, R. (2025). Joint embedding vs reconstruction: Provable benefits of latent space prediction for self-supervised learning. arXiv:2505.12477. arXiv:2505.12477