ESC
输入关键词搜索文章
目录

生成式图像压缩

从 GAN 到 One-Step Diffusion
Blau & Michaeli (2019) 证明 Rate-Distortion-Perception 不可兼得,此后生成式压缩选择了「感知」
3技术路线
20×速度提升
60FPS (CoD-Lite)
Chapter 1 · 理论基础
Rate-Distortion-Perception 三角

Blau & Michaeli(ICML 2019)证明了一个基本结论:在给定比特率 R 下,Rate-Distortion-Perception 三者不可同时最优。

降低 Distortion(如 MSE)意味着像素级准确,但会产生模糊的重建图像。降低 Perception(如 LPIPS)意味着视觉真实,但像素可能偏离原图。传统编码器(JPEG, BPG, VVC)走的是"忠实重建"路线,而生成式压缩选择了"看起来真实"。

核心选择:在极低码率下,你必须在"忠实重建"和"看起来真实"之间做取舍。生成式压缩选择了后者,并证明这个选择在主观质量上远优于传统方法。
Chapter 2 · 路线一
GAN 压缩:开创与里程碑
Agustsson GAN compression architecture
Agustsson et al. 的极端低码率 GAN 压缩框架:encoder、quantizer、generator、discriminator 与语义条件协同。

首次在极端低码率图像压缩中使用 GAN。Generator 作为 decoder,Discriminator 约束感知质量。证明了 GAN 可以在极低码率下生成视觉真实的图像。

里程碑:HiFiC (Mentzer et al., NeurIPS 2020) ★★★

HiFiC 架构
HiFiC 架构。GAN 判别器与端到端压缩的深度融合,用户研究证明即使比特率只有 BPG 的一半,用户仍更偏好 HiFiC 的结果

HiFiC 系统研究了 GAN 训练策略、归一化层、生成器/判别器架构。最关键的贡献是引入了用户研究(user study):即使比特率只有 BPG 的一半,人类评估者仍然更偏好 HiFiC 的结果。

同时引入感知损失(LPIPS)替代纯 MSE 作为优化目标。引用 738+,成为 GAN 压缩的事实标准。

Apple PICO (2024):走向实用

首个兼具感知质量、实用速度、跨平台兼容性的感知优化编解码器。ConvScale 重参数化、Haar 小波重采样、百万级 NAS 搜索。证明 GAN 压缩可以走向实际部署。

GAN 的局限

训练不稳定(GAN 固有问题)、生成多样性有限(mode collapse)、在极低码率(<0.03 bpp)下质量仍然不够好。这些局限催生了扩散模型的引入。

Chapter 3 · 路线二
扩散模型压缩:从多步到极致质量

扩散模型的迭代去噪过程天然适合"从极少信息中重建丰富细节"。Yang & Mandt(NeurIPS 2023)首次将条件扩散模型用作压缩的 decoder,用内容潜变量条件化反向扩散。

PerCo qualitative result
PerCo 的可视化结果:在超低码率下优先保持视觉真实感,代价是像素级偏差可能较大。

超低码率下的"完美真实感"。对矢量量化图像表示和全局描述进行条件化,在极低比特率下产出出色的重建质量。但解码时间约 3.7 秒(Kodak, RTX 3090),远离实时。

DiffEIC qualitative comparison
DiffEIC 的局部放大对比图:在细节区域保留结构,但解码代价仍然很高。

潜在特征引导 + 扩散先验。50步扩散解码,约 7.4 秒(Kodak, RTX 3090)。质量极高但速度是硬伤。

多步扩散的速度困境

多步去噪需要数十到数百次网络前向传播。PerCo ~3.7s(20步),DiffEIC ~7.4s(50步)。与传统编解码器(BPG ~0.01s)差两个数量级。速度问题成为扩散压缩走向实用的最大障碍。

Chapter 4 · 路线三
One-Step Diffusion:2025 年的最热方向

核心突破:将扩散去噪从 N 步压缩到 1 步。不是在数学上证明单步扩散等价于多步,而是通过蒸馏让模型学会"一步到位"。

OneDC (NeurIPS 2025)

OneDC qualitative comparison
OneDC 效果展示:低码率下保持较高视觉质量,同时显著减少多步扩散的解码延迟。
OneDC framework and training pipeline
OneDC 真正的框架图:Stage I 像素域压缩学习,Stage II 混合域感知学习;latent compression module、semantic hyperprior、LoRA one-step diffusion generator 与 distillation loss 共同工作。

Latent 压缩模块 + 单步扩散生成器整合。语义蒸馏将预训练生成 tokenizer 的知识迁移到超先验。LoRA 适配 Stable Diffusion,不修改基础模型权重。比特率降低 40%+,解码速度提升 20 倍(0.34s, MS-COCO, A100)。

StableCodec (ICCV 2025)

StableCodec 双分支架构
StableCodec 双分支架构。辅助解码器处理结构信息,扩散生成器专注细节,一步去噪完成重建

双分支架构是 StableCodec 的核心设计。辅助解码器 D_aux 从比特流直接解码结构信息,扩散生成器 g_θ 专注生成真实细节。没有辅助解码器时,g_θ 需要同时承担结构+细节,负担过重导致去噪指导不佳。

解码时间 0.326s(Kodak, RTX 3090, 1步)。

OSCAR architecture
OSCAR 的整体架构:把多码率控制和 one-step diffusion codec 统一进单模型。

多码率统一框架——一个模型覆盖不同质量等级。这在实际应用中极为重要,传统方法需要为每个质量等级训练单独的模型。

DiffO two-branch architecture
DiffO 的双分支结构:base branch 与 residual branch 分工,强调单步条件下的细节补偿。

单步扩散超低码率。保持感知质量的同时将解码速度提升约 50 倍。

CoD-Lite:实时 60 FPS ★★

CoD-Lite 架构
CoD-Lite:首个实时扩散图像压缩编解码器。压缩导向预训练 + 局部窗口注意力 + DMD 蒸馏 → 14 倍推理加速

首个实时扩散图像压缩编解码器。压缩导向预训练(CoD)是解锁小模型扩散先验的关键。研究发现压缩任务中注意力以局部模式为主(7/26层全局,19层局部),因此用局部窗口注意力替代全局注意力 + DMD 蒸馏实现 14 倍推理加速。

1080p 实时 60 FPS 编码、42 FPS 解码。

编解码速度对比
方法路线数据集硬件编码(s)解码(s)步数
DLFVQGANKodakA1000.1780.252
StableCodec1-Step DiffKodakRTX30900.1590.3261
DiffO1-Step DiffCLICTitan RTX0.1360.2531
OneDC1-Step DiffMSCOCOA1000.150.341
CoD-Lite1-Step Diff60FPS1
DiffEIC多步 DiffKodakRTX30900.6767.42350
PerCo多步 DiffKodakRTX30900.2873.74220
Text+Sketch多步 DiffKodakRTX3090113.25233.56025
关键洞察

「单步扩散的关键突破不是理论上的,而是工程上的。」

——通过蒸馏(DMD)和 LoRA,将 50~1000 步压缩到 1 步,但生成的数学保证不如多步扩散

「双分支架构的必然性。」

——StableCodec 的辅助解码器解决了扩散模型在极低码率下"生成无关内容"的问题。结构走辅助路径,扩散只负责细节

「从压缩到生成的边界正在模糊化。」

——当码率极低(<0.03 bpp)时,解码器本质上是在"生成"而非"重建"。这引发了语义一致性问题(幻觉)