REPA
参考链接
前置知识
面临问题
去噪扩散模型在去噪时可以学习到很多有用的特征。更好地扩散模型,往往学习到的特征也更好。
而扩散模型学习到的特征比 DINOv2 提取出的特征要差很多。
并且,扩散模型提取出来的特征与 DINOv2 提取出来的特征有比较大的差异(不对齐)。
因此我们希望使用高质量的特征表示指导模型(与之相比,传统的扩散模型是自己独立学习),这样可以使训练更加容易。
贡献
本文引入了一种简单的正则化技术(REPA ).
让扩散模型训练过程中得到的特征向量 h 与预训练好的编码器编码的向量 y 尽量相近。
模型和方法
在前几层使用 REPA 的效果是最好的。在 6-8 层时是最好的。
相似度函数
一个是交叉熵,另一个是负余弦相似度。
开始的时候交叉熵更有优势,但是随着时间推移,两者差距减小。最后使用的是余弦相似度。
由此我们得到 Loss 如下:
$$\mathcal L := \lambda\mathcal L_\text{REPA}+L_\text{velocity}$$