图像压缩专题（二）：生成式压缩，从 GAN 到 One-Step Diffusion

2026/05/20 13:28:00

image-compression generative-compression GAN diffusion one-step-diffusion

Chapter 1 · 理论基础

Rate-Distortion-Perception 三角

Blau & Michaeli（ICML 2019）证明了一个基本结论：在给定比特率 R 下，Rate-Distortion-Perception 三者不可同时最优。

降低 Distortion（如 MSE）意味着像素级准确，但会产生模糊的重建图像。降低 Perception（如 LPIPS）意味着视觉真实，但像素可能偏离原图。传统编码器（JPEG, BPG, VVC）走的是"忠实重建"路线，而生成式压缩选择了"看起来真实"。

核心选择：在极低码率下，你必须在"忠实重建"和"看起来真实"之间做取舍。生成式压缩选择了后者，并证明这个选择在主观质量上远优于传统方法。

Chapter 2 · 路线一

GAN 压缩：开创与里程碑

Agustsson et al. 的极端低码率 GAN 压缩框架：encoder、quantizer、generator、discriminator 与语义条件协同。

首次在极端低码率图像压缩中使用 GAN。Generator 作为 decoder，Discriminator 约束感知质量。证明了 GAN 可以在极低码率下生成视觉真实的图像。

里程碑：HiFiC (Mentzer et al., NeurIPS 2020) ★★★

HiFiC 架构。GAN 判别器与端到端压缩的深度融合，用户研究证明即使比特率只有 BPG 的一半，用户仍更偏好 HiFiC 的结果

HiFiC 系统研究了 GAN 训练策略、归一化层、生成器/判别器架构。最关键的贡献是引入了用户研究（user study）：即使比特率只有 BPG 的一半，人类评估者仍然更偏好 HiFiC 的结果。

同时引入感知损失（LPIPS）替代纯 MSE 作为优化目标。引用 738+，成为 GAN 压缩的事实标准。

Apple PICO (2024)：走向实用

首个兼具感知质量、实用速度、跨平台兼容性的感知优化编解码器。ConvScale 重参数化、Haar 小波重采样、百万级 NAS 搜索。证明 GAN 压缩可以走向实际部署。

GAN 的局限

训练不稳定（GAN 固有问题）、生成多样性有限（mode collapse）、在极低码率（<0.03 bpp）下质量仍然不够好。这些局限催生了扩散模型的引入。

Chapter 3 · 路线二

扩散模型压缩：从多步到极致质量

扩散模型的迭代去噪过程天然适合"从极少信息中重建丰富细节"。Yang & Mandt（NeurIPS 2023）首次将条件扩散模型用作压缩的 decoder，用内容潜变量条件化反向扩散。

PerCo 的可视化结果：在超低码率下优先保持视觉真实感，代价是像素级偏差可能较大。

超低码率下的"完美真实感"。对矢量量化图像表示和全局描述进行条件化，在极低比特率下产出出色的重建质量。但解码时间约 3.7 秒（Kodak, RTX 3090），远离实时。

DiffEIC 的局部放大对比图：在细节区域保留结构，但解码代价仍然很高。

潜在特征引导 + 扩散先验。50步扩散解码，约 7.4 秒（Kodak, RTX 3090）。质量极高但速度是硬伤。

多步扩散的速度困境

多步去噪需要数十到数百次网络前向传播。PerCo ~3.7s（20步），DiffEIC ~7.4s（50步）。与传统编解码器（BPG ~0.01s）差两个数量级。速度问题成为扩散压缩走向实用的最大障碍。

Chapter 4 · 路线三

One-Step Diffusion：2025 年的最热方向

核心突破：将扩散去噪从 N 步压缩到 1 步。不是在数学上证明单步扩散等价于多步，而是通过蒸馏让模型学会"一步到位"。

OneDC (NeurIPS 2025)

OneDC 效果展示：低码率下保持较高视觉质量，同时显著减少多步扩散的解码延迟。

OneDC 真正的框架图：Stage I 像素域压缩学习，Stage II 混合域感知学习；latent compression module、semantic hyperprior、LoRA one-step diffusion generator 与 distillation loss 共同工作。

Latent 压缩模块 + 单步扩散生成器整合。语义蒸馏将预训练生成 tokenizer 的知识迁移到超先验。LoRA 适配 Stable Diffusion，不修改基础模型权重。比特率降低 40%+，解码速度提升 20 倍（0.34s, MS-COCO, A100）。

StableCodec (ICCV 2025)

StableCodec 双分支架构。辅助解码器处理结构信息，扩散生成器专注细节，一步去噪完成重建

双分支架构是 StableCodec 的核心设计。辅助解码器 D_aux 从比特流直接解码结构信息，扩散生成器 g_θ 专注生成真实细节。没有辅助解码器时，g_θ 需要同时承担结构+细节，负担过重导致去噪指导不佳。

解码时间 0.326s（Kodak, RTX 3090, 1步）。

OSCAR 的整体架构：把多码率控制和 one-step diffusion codec 统一进单模型。

多码率统一框架——一个模型覆盖不同质量等级。这在实际应用中极为重要，传统方法需要为每个质量等级训练单独的模型。

DiffO 的双分支结构：base branch 与 residual branch 分工，强调单步条件下的细节补偿。

单步扩散超低码率。保持感知质量的同时将解码速度提升约 50 倍。

CoD-Lite：实时 60 FPS ★★

CoD-Lite：首个实时扩散图像压缩编解码器。压缩导向预训练 + 局部窗口注意力 + DMD 蒸馏 → 14 倍推理加速

首个实时扩散图像压缩编解码器。压缩导向预训练（CoD）是解锁小模型扩散先验的关键。研究发现压缩任务中注意力以局部模式为主（7/26层全局，19层局部），因此用局部窗口注意力替代全局注意力 + DMD 蒸馏实现 14 倍推理加速。

1080p 实时 60 FPS 编码、42 FPS 解码。

编解码速度对比

方法	路线	数据集	硬件	编码(s)	解码(s)	步数
DLF	VQGAN	Kodak	A100	0.178	0.252	—
StableCodec	1-Step Diff	Kodak	RTX3090	0.159	0.326	1
DiffO	1-Step Diff	CLIC	Titan RTX	0.136	0.253	1
OneDC	1-Step Diff	MSCOCO	A100	0.15	0.34	1
CoD-Lite	1-Step Diff	—	—	—	60FPS	1
DiffEIC	多步 Diff	Kodak	RTX3090	0.676	7.423	50
PerCo	多步 Diff	Kodak	RTX3090	0.287	3.742	20
Text+Sketch	多步 Diff	Kodak	RTX3090	113.252	33.560	25

关键洞察

「单步扩散的关键突破不是理论上的，而是工程上的。」

——通过蒸馏（DMD）和 LoRA，将 50~1000 步压缩到 1 步，但生成的数学保证不如多步扩散

「双分支架构的必然性。」

——StableCodec 的辅助解码器解决了扩散模型在极低码率下"生成无关内容"的问题。结构走辅助路径，扩散只负责细节

「从压缩到生成的边界正在模糊化。」

——当码率极低（<0.03 bpp）时，解码器本质上是在"生成"而非"重建"。这引发了语义一致性问题（幻觉）

生成式图像压缩

里程碑：HiFiC (Mentzer et al., NeurIPS 2020) ★★★

Apple PICO (2024)：走向实用

多步扩散的速度困境

OneDC (NeurIPS 2025)

StableCodec (ICCV 2025)

CoD-Lite：实时 60 FPS ★★

参考来源