从自身 Latents 学习,而非 Tokens
样本复杂度
样本复杂度
(ILC / SLC / data2vec)
(无关性证明)
扩散模型能生成以假乱真的图像,大语言模型能掌握语法、世界知识与推理能力。但这两类生成模型共享同一个配方:在原始信号的层面——像素或 token——进行大规模预测。这个配方带来的成功,伴随着一个生物学习者无需付出的代价:前沿 LLM 的训练数据量达到 $10^{13}$–$10^{14}$ 个 token,比儿童在达到成人水平前接触到的语言输入多出超过五个数量级;SOTA 扩散模型 likewise 依赖数十亿张图像。
这个差距指向一个根本性问题:token-level 预训练在样本效率上远非最优。一个自然假设是,学习可能不是在原始 token 层面最高效地发生,而是在更抽象的潜在空间中。事实上,近年来一系列方法——从 BYOL、DINO 到 data2vec 和 JEPA——都在践行同一个思想:让网络预测自身的潜在表示(latent representations),而非原始输入的重建。这与计算神经科学中的预测编码理论不谋而合:皮层所寻求的,是预测其自身的未来活动。
本文解读的是 Korchinski、Favero 与 Wyart 于 2025 年 5 月发表在 arXiv 上的理论工作 #Korchinski et al., 2025。作者选择了一个可精确解析的合成数据模型——Random Hierarchy Model (RHM)——来定量回答上述问题。核心结论极具冲击力:对于具有层次潜在结构的数据,监督学习需要 $\sim m^L$ 样本,token-level 自监督学习需要 $\sim m^{L+1}$ 样本,而从自身 latents 学习仅需 $\sim m^3$ 样本——与树深度 $L$ 无关,仅含对数因子。这意味着 latent prediction 在理论上可以将样本复杂度从指数级降低到常数级。
论文还通过分析 data2vec 首次证明:单个 latent-prediction 模块已隐式执行多尺度层次发现,从而对显式堆叠架构(如 H-JEPA)的必要性提出了根本性质疑。
要理解为什么 token-level 学习样本效率低,我们需要一个能精确控制层次结构的合成数据模型。作者沿用了他们此前提出的 Random Hierarchy Model (RHM) #Cagnetta et al., 2024,一个简化的概率上下文无关文法(PCFG)。
RHM 的生成规则
RHM 定义在一棵固定的正则树上:深度为 $L$,分支因子为 $s$,每一层 $\ell = 0, 1, \ldots, L$ 都有一个大小为 $v$ 的词汇表 $\mathcal{V}_\ell$。第 0 层是可见层(visible tokens),第 1 到 $L$ 层是潜在层(latent symbols)。可见序列长度为 $s^L$。
生成过程自上而下:根节点 $h_1^{(L)}$ 从 $\mathcal{V}_L$ 均匀采样;若父节点 $h_u^{(\ell+1)} = a$,则其子元组 $T_u^{(\ell)} = (h_{(u-1)s+1}^{(\ell)}, \ldots, h_{us}^{(\ell)})$ 从规则集 $\mathcal{R}_{\ell,a}$ 中均匀采样。每个规则集包含 $m$ 个不同的 $s$-元组,整个文法通过从 $\mathcal{V}_\ell^s$ 中无放回地选取 $vm$ 个元组并划分为 $v$ 个大小为 $m$ 的组来随机生成。关键参数 $f = m / v^{s-1}$ 表示合法元组在所有可能元组中的比例。
同义词(Synonyms)
若两个 grammatical 元组 $\nu, \nu' \in \mathcal{S}_\ell$ 具有相同的父节点,则称它们为同义词。由于规则映射是单射,文法是无歧义的:每个合法元组有唯一的父节点。学习 RHM 的本质,就是学习对同义词交换的不变性。
统计信号:Connected Correlation
学习同义词不变性的统计信号来自 connected correlation。设 $T^{(\ell)}$ 是一个层级-$\ell$ 的 $s$-元组,$Z$ 是树中另一位置的可观测量:
信号衰减定律
相关性的强度取决于 $Z$ 相对于 $T^{(\ell)}$ 的树距离。信号必须从 $T^{(\ell)}$ 的父节点传播到 $Z$ 所在位置,沿路径上每个未解析的产生式规则都会在 $m$ 个同义词选择上取平均,从而衰减信号强度 $1/m$。在样本复杂度术语中,每多一层未解析的规则,代价为一个 $m$ 的因子。 这个简单的几何直觉解释了三种学习目标的样本复杂度差异:| 学习目标 | 预测目标 $Z$ | 树距离 | 样本复杂度 |
|---|---|---|---|
| 监督学习 | 根节点标签 | $L - \ell$ | $\sim m^L$ |
| Token-level SSL | 被掩码的 token | $L - \ell + 1$ | $\sim m^{L+1}$ |
| Latent prediction | Cousin tuple 中的 latent | 2(固定) | $\sim m^3$ |
ILC:逐层聚类恢复层次树
Iterative Latent Clustering (ILC) 是一个自底向上的分层聚类算法,其目标是从仅包含可见 token 的样本中,恢复完整的非根潜在树 $h^{(1)}, \ldots, h^{(L-1)}$。 算法流程极为简洁:- 初始化:将可见 token 直接作为第 0 层潜在表示,$\hat{h}_i^{(0)} = x_i$。
- 迭代上升:对每层 $\ell = 0, \ldots, L-2$:
- 从当前层估计值构造所有层级-$\ell$ 的 $s$-元组 $\hat{T}_u^{(\ell)}$
- 将观察到的元组集合作为合法元组支持集 $\hat{\mathcal{S}}_\ell$ 的估计
- 对 $\hat{\mathcal{S}}_\ell$ 中每个元组 $\nu$,统计其出现次数 $N(\nu)$,并计算 empirical cousin context vector:
$$\hat{\phi}_\ell(\nu) := \frac{1}{N(\nu)} \sum_{p=1}^{P} \mathbf{1}\{\hat{T}_\ell^{(p)} = \nu\} \, e_{\hat{Z}_\ell^{(p)}}$$
其中 $\hat{Z}_\ell^{(p)}$ 是与 $\hat{T}_\ell^{(p)}$ 共享祖父节点的 cousin tuple 中的固定元素。
- 使用聚类模块将上下文向量聚为 $v$ 类
- 将聚类身份作为下一层潜在标签:$\hat{h}_u^{(\ell+1)} = a \iff \hat{T}_u^{(\ell)} \in \hat{\mathcal{S}}_{\ell,a}$
- 输出:估计的非根层次结构 $\hat{h}^{(1)}, \ldots, \hat{h}^{(L-1)}$。
SLC:端到端的 Latent Prediction 网络
ILC 证明了 latent prediction 在算法层面的样本效率优势,但一个自然的问题是:这个优势能否通过标准的端到端梯度下降训练获得?Stacked Latent Clustering (SLC) 给出了肯定的答案。
SLC 由 $L-1$ 个堆叠的 predictor-clusterer 模块组成,每个模块对应 RHM 的一个层级:
graph TD
A["Input Tokens h(0)"] --> M0["Module 0"]
M0 -->|"h(1)"| M1["Module 1"]
M1 -->|"h(2)"| M2["..."]
M2 -->|"h(L-2)"| ML["Module L-2"]
ML -->|"h(L-1)"| OUT["Output"]
subgraph SLC["Module l Structure"]
IN["s tokens, dim d_h"] --> PRED["Predictor CNN1-CNN2-CNN3"]
PRED --> PHI["Prediction phi(l)"]
PHI --> CLUST["Clusterer CNN4-CNN5-Softmax"]
CLUST --> Q["Soft Assignment q(l+1), v classes"]
end
这里的关键设计是 sparse assignment:在 softmax 约束 $\|q_i\|_1 = 1$ 下,通过最大化 $\|q_i\|_2^2$ 鼓励稀疏(one-hot-like)分配,提升训练稳定性和可解释性。
data2vec 隐式执行层次化 Latent Prediction
论文的第三个结果是对 data2vec #Baevski et al., 2022 的首个样本复杂度分析。data2vec 的标准架构包括:学生编码器处理掩码输入(mask probability 0.15),教师编码器处理完整输入(EMA decay $\mu = 0.99$),取顶部 $K=4$ 层表示平均作为目标。
作者的核心发现是:在 RHM 数据上训练时,data2vec 的编码器各层会逐层发现 RHM 的潜在层次结构——较低层先学会表示较低层的潜在变量,较高层再在此基础上表示更高层的潜在变量。这与 SLC 的显式层次化设计在功能上等价,只是隐式地发生在单个深度网络的内部各层中。
作者通过对 data2vec 编码器各层施加线性探针(linear probe)来验证这一发现。探针分析显示:随着训练进行,编码器的低层先获得区分 level-1 同义词的能力,中层随后解锁 level-2,以此类推——一种"自底向上、逐层解锁"的动态与 SLC 的显式模块训练在功能上等价。
三种方法在训练层面呈现出一个有趣的谱系:ILC 是纯粹的无参数统计估计,SLC 是多目标优化的神经网络训练,data2vec 则是标准自蒸馏框架的特例。
ILC:无参数统计估计
ILC 没有可学习的神经网络参数。其"训练"纯粹是统计估计:计算经验上下文向量和聚类。论文假设存在一个稳定的聚类模块 $\text{Cluster}_v$(假设 2),在扰动不超过 $\Delta/8$ 时能完美恢复真实划分。每个合法元组的出现概率约为 $1/(vm)$,因此要保证 $vm$ 个元组都被充分采样,需要 $P \gtrsim vm \log(vm)$ 样本。结合上下文向量的分离尺度 $\Delta \sim \sqrt{(1-f)/m}$,最终得到样本复杂度界。
SLC:多目标梯度优化
SLC 的训练涉及三个同时优化的目标,作者使用 Jacobian descent 结合 UPGrad 算法处理多目标冲突:
SLC 损失函数
- $\mathcal{L}_{\text{pred}}$:预测损失,对 cousin patches 中真实 token 的负对数似然
- $\mathcal{L}_{\text{sim}}$:相似性损失。若两个预测向量的余弦相似度 $S_{ij} > S_m = 0.8$ 但被分到不同簇,则惩罚
- $\mathcal{L}_{\text{sep}}$:分离损失。若两个预测向量不相似但聚类分配重叠,则惩罚($\lambda_{\text{sep}} = 0.5$)
- $\mathcal{L}_{\text{spars}}$:稀疏性奖励。最大化聚类分配的 $L_2$ 范数,鼓励 one-hot-like 分配($\lambda_{\text{spars}} = 10^{-2}$)
| 超参数 | 取值 | 备注 |
|---|---|---|
| 优化器 | AdamW | — |
| 学习率 | $3 \times 10^{-3}$ | 常数,无 warmup/decay |
| 权重衰减 | $10^{-3}$ | — |
| Batch size | 32 | — |
| EMA 衰减 $\alpha_{\text{ema}}$ | 0.015 | teacher 更新速率 |
| Predictor 隐藏宽度 | 150 | CNN 中间层 |
| 聚类维度 $d_h$ | 128 | 默认 $d_h \gg v$(最难情况) |
| 相似度边界 $S_m$ | 0.8 | similarity loss margin |
| 训练 epoch | 30 | 验证集 2000 样本 early stopping |
| 对比采样数 $N_{\text{compare}}$ | 300 | 每批次随机选取 |
SLC 使用 EMA teacher-student 框架防止坍塌:教师权重 $W^{(T)} \leftarrow (1-\alpha_{\text{ema}}) W^{(T)} + \alpha_{\text{ema}} W^{(S)}$,其中 $\alpha_{\text{ema}} = 0.015$。消融实验表明,即使禁用全局 EMA teacher,只要在 predictor 和 clusterer 之间加入 stop-gradient,就能防止坍塌——这使得 SLC 可以用完全局部的学习规则训练。
data2vec:标准自蒸馏
data2vec 的训练配置在论文中以完整表格给出(Table 1)。关键参数:8 层 Transformer,$d_{\text{model}} = 2048$,32 头注意力,FFN 维度 8192;AdamW 优化器,学习率 $10^{-4}$(常数),batch size 512,训练 262,144 步;mask probability 0.15,span length 1;smooth L1 损失 ($\beta = 4$)。主实验:样本复杂度 ~m³ 缩放
图 3(clustering_and_ptc_m_sweeps)展示了 ILC 和 SLC 在不同 $m$ 值下的样本复杂度。对于固定的 $L=4, v=16$,当 $m$ 从 6 增加到 10 时,恢复完整层次结构所需的样本数与 $m^3$ 成正比——与理论预测一致。SLC 的端到端训练完全复现了 ILC 的统计优势。
L-scaling:与深度无关
图 12(ptc_L_scaling)验证了最关键的理论预测:样本复杂度与树深度 $L$ 无关。作者在 $L = 4, 5, 6, 7$ 上测试 SLC,发现所有深度的曲线都 collapse 到同一条 $m^3$ 缩放线上。这意味着即使数据的层次结构越来越深,latent prediction 的样本效率也不会恶化——这与监督学习和 token-level SSL 形成鲜明对比。
data2vec:逐层解锁动态
图 5(d2vec_main_online_with_pstar)展示了 data2vec 训练过程中的在线学习曲线。随着训练进行,编码器各层依次获得区分不同层级潜在变量的能力——低层先解锁 level-1,中层随后解锁 level-2,以此类推。这与 SLC 的显式逐层训练在动态上等价。
消融实验与失败案例
| 消融设置 | 结果 | 含义 |
|---|---|---|
| 禁用 EMA teacher,保留 stop-gradient | 训练成功 | 局部学习规则即可防止坍塌 |
| 禁用 EMA + 禁用 stop-gradient | 表示坍塌 | 聚类损失压倒预测损失 |
| $d_h \geq mv$ | 聚类失效 | 码本过大导致每个输入获唯一标签 |
| $f = 1$(所有规则存在) | 自监督完全失效 | 输入等概率,相关性消失 |
| Token-level SSL $m^{L+1}$ 缩放 | 准确率显著劣化 | 证实理论预测的根本性劣势 |
技术对比:三种范式的定位
| 维度 | 监督学习 | Token-level SSL | Latent Prediction |
|---|---|---|---|
| 核心表示 | 端到端判别式 | 原始 token 重建 | 自身潜在表示预测 |
| 训练目标 | 交叉熵分类 | 掩码 token 预测 | latent 回归 + 聚类 |
| 样本复杂度 | $\sim m^L$ | $\sim m^{L+1}$ | $\sim m^3$ |
| 与 $L$ 关系 | 指数 | 指数(更差) | 无关(常数) |
| 层次发现 | 隐式 | 无 | 显式/隐式 |
| 生物学关联 | 弱(需标签) | 弱 | 强(预测编码) |
局限性与边界条件
论文明确承认了若干局限性。首先,分析仅在 RHM 这一合成数据上进行,真实世界数据的层次结构并非严格的树形 PCFG。其次,所有方法都无法恢复根节点 $h^{(L)}$,因为不存在可用于区分根 synonym 的外部信号。第三,当 $f = 1$ 时自监督完全失效。第四,作者未公开官方代码实现——论文中仅提供伪代码与超参数表,复现需自行实现 ILC/SLC/data2vec 训练流程。 一个需要谨慎对待的推论是:论文认为 H-JEPA 的显式堆叠"很大程度上冗余",但 2025-2026 年出现的 V-JEPA 2.1 和 Bootleg 仍报告了 SOTA 性能。论文在 Appendix A 中分析了这些架构与 SLC 的关键区别:V-JEPA 2.1 和 Bootleg 都引入了从高层 latent 到低层目标的 high→low 预测路径,而标准 H-JEPA 缺少这一路径。Figure 6 直观展示了四种架构(H-JEPA / V-JEPA 2.1 / Bootleg / SLC)在损失目标结构上的差异。因此,"显式堆叠冗余"或许更准确地应理解为"naive 的逐层独立预测是冗余的",但精心设计的跨层交互(尤其是 high→low 路径)仍可能有价值。可操作的启发
- 样本效率的本质是统计距离:在设计自监督目标时,预测目标与上下文之间的"统计距离"(而非语义距离)决定了样本复杂度。latent prediction 的优势在于始终维持最小的树距离。
- 单层网络可能已足够:如果 data2vec 这样的单层 latent-prediction 模块已隐式执行多尺度发现,那么在设计新架构时,或许应优先探索如何增强单层网络的层次化能力,而非急于堆叠模块。
- 跨层交互是关键:如果确实需要显式层次结构,应引入 high→low 的预测路径(如 V-JEPA 2.1),而非仅做自底向上的逐层预测。
- 合成数据的理论价值:RHM 虽然简化,但提供了可精确计算的样本复杂度基准。在探索新的学习范式时,先用合成模型验证理论直觉,再迁移到真实数据,是一条高效的研究路径。
总结
这篇论文的价值不仅在于证明了 latent prediction 的指数级样本效率优势,更在于它提供了一个可计算的理论框架,让我们能够定量比较不同学习范式的数据效率。在生成式 AI 训练成本日益高昂的今天,理解"为什么某些方法需要更多数据"与"如何在潜在空间中更高效地学习",具有越来越重要的现实意义。 最终,论文向我们提出的问题是:如果生物大脑确实通过预测自身潜在表示来学习,那么我们的深度学习系统是否也应该更认真地对待这一范式——不仅仅是作为工程技巧,而是作为关于学习本质的一个基本假设?参考来源
- Korchinski, D. J., Favero, A., & Wyart, M. (2025). Learn from your own latents and not from tokens: A sample-complexity theory. arXiv:2605.27734v1 (2025-05). arXiv:2605.27734 — 当前为 arXiv 预印本,尚未标注会议或期刊接收状态。
- Cagnetta, F., Petrini, L., Tomasini, U. M., Favero, A., & Wyart, M. (2024). How deep neural networks learn compositional data: The random hierarchy model. Physical Review X, 14, 031001. arXiv:2307.02129
- Baevski, A., Hsu, W. N., Xu, Q., Babu, A., Gu, J., & Auli, M. (2022). Data2vec: A general framework for self-supervised learning in speech, vision and language. ICML 2022. arXiv:2202.03555
- LeCun, Y. (2022). A path towards autonomous machine intelligence. OpenReview. OpenReview
- Van Assel, H., Ibrahim, M., Biancalani, T., Regev, A., & Balestriero, R. (2025). Joint embedding vs reconstruction: Provable benefits of latent space prediction for self-supervised learning. arXiv:2505.12477. arXiv:2505.12477