ESC
输入关键词搜索文章
目录

REPA

参考链接

前置知识

面临问题

去噪扩散模型在去噪时可以学习到很多有用的特征。更好地扩散模型,往往学习到的特征也更好。

而扩散模型学习到的特征比 DINOv2 提取出的特征要差很多。

并且,扩散模型提取出来的特征与 DINOv2 提取出来的特征有比较大的差异(不对齐)。

因此我们希望使用高质量的特征表示指导模型(与之相比,传统的扩散模型是自己独立学习),这样可以使训练更加容易。

贡献

本文引入了一种简单的正则化技术(REPA ).

让扩散模型训练过程中得到的特征向量 h 与预训练好的编码器编码的向量 y 尽量相近。

模型和方法

在前几层使用 REPA 的效果是最好的。在 6-8 层时是最好的。

相似度函数

一个是交叉熵,另一个是负余弦相似度。

开始的时候交叉熵更有优势,但是随着时间推移,两者差距减小。最后使用的是余弦相似度。

由此我们得到 Loss 如下:

$$\mathcal L := \lambda\mathcal L_\text{REPA}+L_\text{velocity}$$

训练

实验

结论

收获