HiFiC:GAN 压缩的里程碑
HiFiC 的问题意识很朴素:低码率下,传统压缩器常常能给出较高 PSNR,却把头发、毛衣、草地、墙面颗粒这些高频纹理压成一片平滑;人眼看上去不一定更喜欢这种“平均正确”的图像。High-Fidelity Generative Image Compression 正是在这个矛盾上做系统实验:把 GAN、LPIPS、学习式熵编码和用户研究放进同一个图像压缩系统,观察低码率下到底什么样的重建更符合人类偏好 #Mentzer et al., 2020。
这篇论文由 Fabian Mentzer、George Toderici、Michael Tschannen 和 Eirikur Agustsson 完成,NeurIPS 2020 发表,项目页为 hific.github.io。它不是第一篇把 GAN 用在压缩里的工作,但它的贡献在于把这条路线做成了一个可比较、可消融、可被用户研究验证的系统:模型覆盖多个码率,能处理高分辨率图片,并且在主观评价中击败了 BPG 和强学习式 MSE baseline,即使后者使用更多比特 #Mentzer et al., 2020。
学习式图像压缩通常从 Shannon 的 rate-distortion 视角出发:编码器把图像 $x$ 压成 latent $y$,概率模型估计保存 $y$ 需要多少 bit,解码器再生成重建 $x'$。如果失真项是 MSE,那么模型会倾向于输出条件均值;而在纹理不确定时,条件均值经常就是模糊。Blau 和 Michaeli 进一步把“看起来像真实图像”形式化为 perception 维度,指出在固定 rate 下,改善 perceptual quality 往往意味着 distortion 变差 #Blau and Michaeli, 2019。
普通学习式压缩目标
这里 $y=E(x)$,$x'=G(y)$,$r(y)=-\log P(y)$ 是概率模型估计的码长,$d(x,x')$ 常取 MSE 或 MS-SSIM。它优化的是“用多少 bit 换多少像素/结构误差”,但不直接保证重建图像服从自然图像分布 #Mentzer et al., 2020。
HiFiC 的动机不是否定 PSNR,而是指出:如果目标场景是低码率视觉浏览,那么“每个像素都保守地接近原图”未必是最好的选择。低码率时,压缩器必须决定哪些信息真正传输、哪些细节只能由解码器补全;GAN 的价值就在于给补全出来的局部纹理加上自然图像分布约束 #Mentzer et al., 2020。
| 路线 | 代表目标 | 低码率倾向 | HiFiC 的判断 |
|---|---|---|---|
| 失真导向压缩 | MSE / PSNR / MS-SSIM | 保守、平滑、像素更接近 | 适合需要精确还原的场景,但观感可能差 |
| 感知导向压缩 | LPIPS / FID / GAN loss | 纹理更真实,但像素不一定逐点对齐 | 适合低码率主观视觉质量优先的场景 |
| HiFiC | rate + MSE + LPIPS + conditional GAN | 在码率约束下向视觉真实侧移动 | 用用户研究判断这个移动是否值得 |
HiFiC 的系统由四个网络组成:encoder $E$、generator/decoder $G$、probability model $P$ 和 discriminator $D$。编码阶段,$E$ 产生 latent $y$,$P$ 估计其概率并支持算术编码;解码阶段,$G$ 根据量化 latent 生成重建图像。GAN 不是作为外部修图器接在最后,而是直接进入压缩训练目标,和 rate、MSE、LPIPS 一起塑造 latent 与 decoder #Mentzer et al., 2020。
核心损失:用同一个目标同时管码率、失真和感知
HiFiC 把普通 rate-distortion 目标扩展为包含 LPIPS 和 GAN 的目标。论文将 MSE 与 LPIPS 合成点对点 distortion,再加入条件判别器的非饱和 GAN loss。生成器侧目标可以写成:
HiFiC 生成器 / 压缩器目标
其中 $d_P$ 取 LPIPS,$D(x',y)$ 表示判别器在 latent 条件 $y$ 下认为重建图像为真实图像的概率。这个式子把“少用 bit”“别偏离原图太远”和“看起来像真实图像”放在同一个优化问题里 #Mentzer et al., 2020。
判别器也有一个关键细节:它是 conditional discriminator。也就是说,$D$ 不只看图像本身,还看压缩 latent $y$。如果判别器不看 $y$,生成器理论上可以生成一张自然但和输入内容无关的图像来骗过它;加入 $y$ 后,判别器要判断的是“在这个压缩表示条件下,这张图是否像真实原图”。论文的消融显示,条件判别器带来更好的 FID,也让训练更可靠 #Mentzer et al., 2020。
graph LR A[输入图像 x] --> B[Encoder E] B --> C[量化 latent y] C --> D[Probability model P
估计码长 r(y)] C --> E[Generator G] E --> F[重建 x'] C --> G[上采样 latent 条件] F --> H[Discriminator D] A --> H G --> H H --> I[GAN loss]
ChannelNorm:一个容易被忽略但很关键的工程选择
论文还提出 ChannelNorm 来替代 autoencoder 中的 InstanceNorm。InstanceNorm 会在空间维度上求均值和方差,作者发现当模型从训练 crop 尺寸泛化到更大分辨率图像时,InstanceNorm 容易引入明显暗化。ChannelNorm 改为在每个空间位置跨 channel 归一化,避免归一化统计量依赖图像宽高 #Mentzer et al., 2020。
ChannelNorm
它在每个位置 $(h,w)$ 上跨通道归一化,并使用每通道可学习参数 $\alpha_c,\beta_c$。和 InstanceNorm 相比,它不把整张图的空间统计混进归一化,因此更适合高分辨率推理 #Mentzer et al., 2020。
HiFiC 的训练不是简单把 GAN loss 加进去就结束。论文指出,如果固定 $ \lambda_R$,不同的 MSE、LPIPS、GAN 权重会把模型推到不同 bitrate,导致比较不公平。因此作者引入目标码率 $r_t$ 和自适应 $ \lambda_R'$:当当前码率超过目标时用更大的惩罚 $ \lambda_{Ra}$,否则用较小的 $ \lambda_{Rb}$,让不同模型围绕可比码率训练 #Mentzer et al., 2020。
| 设置 | 数值 | 说明 |
|---|---|---|
| 训练 crop | 256×256 | 训练图像随机缩放到 500–1000 像素后裁剪 |
| 评估集 | Kodak 24 / CLIC2020 428 / DIV2K 100 | 不针对评估集做适配,直接全分辨率测试 |
| 优化器 | Adam, learning rate 1e-4 | $E,G,P$ 与 $D$ 交替训练 |
| 训练步数 | 2M steps | GAN 模型由 MSE+LPIPS warmup 初始化后继续训练 |
| 固定超参数 | $\lambda_{Rb}=2^{-4}$, $\lambda_{MSE}=0.075\cdot2^{-5}$, $\lambda_P=1$, $C_y=220$ | 论文补充材料给出的主要固定设置 |
| 目标码率 | 0.14 / 0.30 / 0.45 | 对应 HiFiC-Lo、Mi、Hi 三个 operating points |
还有一个稳定性细节:HiFiC 的 GAN 模型不是完全从零开始训练,而是从只含 MSE+LPIPS 的 warmup 模型初始化。论文的失败实验说明,只有 GAN、没有 MSE/LPIPS 约束时,如果联合学习 encoder,训练会 collapse;而 MSE 在这里不仅是指标偏好,更像是稳定训练的锚点 #Mentzer et al., 2020。
HiFiC 最重要的实验是 2AFC 用户研究。作者从 CLIC2020 随机选取 20 张图,14 名参与者平均每人比较 348 对方法,总计 4876 次比较。参与者看到两个重建 crop 和原图,选择“哪一个更接近原图”。最后用 Elo 排名,并做 10000 次 Monte Carlo shuffle 得到稳定排序 #Mentzer et al., 2020。
| 结论 | 具体数字 | 含义 |
|---|---|---|
| HiFiC-Lo 接近高码率基线 | 0.120 bpp vs BPG 0.390 bpp / M&S 0.405 bpp | 人类偏好上可接近 3.3×–3.4× 码率的传统/学习式基线 |
| HiFiC-Mi 超过 BPG | 0.237 bpp 优于 BPG 0.504 bpp | 在一半以下码率下获得更好主观偏好 |
| GAN 有明确增益 | HiFiC 优于同架构 no-GAN baseline | LPIPS 之外,GAN loss 本身对主观观感有贡献 |
定量指标部分则更微妙。HiFiC 在 FID、KID、NIQE、LPIPS 等感知相关指标上占优,但 PSNR 和 MS-SSIM 相对较差。论文并不把这看成缺陷,而是用它验证 rate-distortion-perception trade-off:当 GAN 权重 $ \lambda_D$ 增大,FID 变好,MSE/LPIPS 组成的 distortion 变差;这说明模型确实沿着感知质量方向移动 #Mentzer et al., 2020。
消融实验给出的工程建议
论文的消融很有实用价值:条件判别器优于非条件判别器,因为它迫使生成结果尊重输入 latent;SpectralNorm 在非条件设置下显著降低 FID/KID 跨运行波动;generator 容量不足会损害 FID 和 PSNR,残差块数从 1 增到 5 后明显改善,默认使用 9 个 residual blocks;去掉 LPIPS 会引入网格状伪影,只用 GAN 则训练不稳定 #Mentzer et al., 2020。
论文明确提到两个失败场景:很小的文字可能被重建成像另一种文字的纹理,小脸可能出现高频噪声。这类失败说明生成式压缩的“看起来真实”并不等于语义完全忠实,尤其在细小结构和可识别身份信息上要谨慎使用 #Mentzer et al., 2020。
HiFiC 的历史位置很清楚:它把 GAN 压缩从“概念上可行”推进到“系统上可信”。此前已有 Agustsson 等人在极低码率压缩里展示 GAN 的潜力,但 HiFiC 更系统地回答了几个问题:怎么让 GAN 与熵模型一起训练,怎么处理高分辨率泛化,怎么用条件判别器避免无关生成,怎么用用户研究验证主观质量 #Agustsson et al., 2019 #Mentzer et al., 2020。
| 方法 | 生成机制 | 主要优势 | 主要风险 |
|---|---|---|---|
| BPG / 传统 codec | 手工变换与预测编码 | 稳定、可解释、PSNR 强 | 低码率块效应和纹理损失明显 |
| M&S Hyperprior | 学习式 transform coding | rate-distortion 强,训练目标清晰 | MSE 路线低码率容易平滑 |
| HiFiC | 条件 GAN decoder | 低码率主观质量强,用户研究支持 | 小文字、小脸等细节可能幻觉化 |
| 后续 diffusion compression | 条件扩散解码 | 更强生成先验与感知质量 | 采样成本、忠实性与幻觉问题更突出 |
读完 HiFiC,最值得带走的不是“GAN 比 MSE 好”这种简单结论,而是一个评估框架:低码率压缩必须说清楚自己优化的是哪一类质量。如果服务医学、遥感、档案保存,失真指标和语义忠实可能优先;如果服务缩略图、社交媒体和低码率浏览,人眼偏好和感知质量可能更重要。HiFiC 的价值在于,它没有只给出更漂亮的图,而是把这种选择放进了损失函数、架构设计、消融实验和用户研究里 #Mentzer et al., 2020。
这也解释了为什么后来的扩散式图像压缩、one-step diffusion codec、可控 distortion-perception 方法都绕不开 HiFiC。它把生成式压缩的核心问题先摆到了桌面上:当 bit 不够时,哪些细节应该传输,哪些细节可以生成,生成出来的东西又该由谁来判定“好”?#Yang and Mandt, 2024 #Zhou et al., 2024
参考来源
- Mentzer, F., Toderici, G., Tschannen, M., & Agustsson, E. (2020). High-Fidelity Generative Image Compression. NeurIPS 2020. arXiv:2006.09965
- Blau, Y., & Michaeli, T. (2019). Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff. ICML 2019. arXiv:1901.07821
- Agustsson, E., Tschannen, M., Mentzer, F., Timofte, R., & Van Gool, L. (2019). Generative Adversarial Networks for Extreme Learned Image Compression. ICCV 2019. CVF Open Access
- Ballé, J., Minnen, D., Singh, S., Hwang, S. J., & Johnston, N. (2018). Variational Image Compression with a Scale Hyperprior. ICLR 2018. OpenReview
- Minnen, D., Ballé, J., & Toderici, G. (2018). Joint Autoregressive and Hierarchical Priors for Learned Image Compression. NeurIPS 2018. NeurIPS
- Yang, R., & Mandt, S. (2024). Lossy Image Compression with Conditional Diffusion Models. NeurIPS. arXiv:2209.06950
- Zhou, C. et al. (2024). Controllable Distortion-Perception Tradeoff Through Latent Diffusion for Neural Image Compression. arXiv:2412.11379
- HiFiC project page. hific.github.io
- TensorFlow Compression HiFiC implementation. GitHub: tensorflow/compression/models/hific