REPA

2026/02/06 00:00:00·2026/05/19 10:23:00

AI自回归·2 min read

参考链接

去噪扩散模型在去噪时可以学习到很多有用的特征。更好地扩散模型，往往学习到的特征也更好。

而扩散模型学习到的特征比 DINOv2 提取出的特征要差很多。

并且，扩散模型提取出来的特征与 DINOv2 提取出来的特征有比较大的差异（不对齐）。

因此我们希望使用高质量的特征表示指导模型（与之相比，传统的扩散模型是自己独立学习），这样可以使训练更加容易。

本文引入了一种简单的正则化技术（REPA ).

让扩散模型训练过程中得到的特征向量 h 与预训练好的编码器编码的向量 y 尽量相近。

在前几层使用 REPA 的效果是最好的。在 6-8 层时是最好的。

一个是交叉熵，另一个是负余弦相似度。

开始的时候交叉熵更有优势，但是随着时间推移，两者差距减小。最后使用的是余弦相似度。

由此我们得到 Loss 如下：

\mathcal L := \lambda\mathcal L_\text{REPA}+L_\text{velocity}