ESC
输入关键词搜索文章
目录

HiFiC:GAN 压缩的里程碑

High-Fidelity Generative Image Compression 深度解读
当低码率图像不能同时像素准确又视觉真实时,HiFiC 选择先让人眼相信它
2020NeurIPS
0.120HiFiC-Lo bpp
4876用户比较
3.3×BPG 对比码率
Part 1 · 引言
压缩图像到底要“像原图”,还是要“像真的”?

HiFiC 的问题意识很朴素:低码率下,传统压缩器常常能给出较高 PSNR,却把头发、毛衣、草地、墙面颗粒这些高频纹理压成一片平滑;人眼看上去不一定更喜欢这种“平均正确”的图像。High-Fidelity Generative Image Compression 正是在这个矛盾上做系统实验:把 GAN、LPIPS、学习式熵编码和用户研究放进同一个图像压缩系统,观察低码率下到底什么样的重建更符合人类偏好 #Mentzer et al., 2020

这篇论文由 Fabian Mentzer、George Toderici、Michael Tschannen 和 Eirikur Agustsson 完成,NeurIPS 2020 发表,项目页为 hific.github.io。它不是第一篇把 GAN 用在压缩里的工作,但它的贡献在于把这条路线做成了一个可比较、可消融、可被用户研究验证的系统:模型覆盖多个码率,能处理高分辨率图片,并且在主观评价中击败了 BPG 和强学习式 MSE baseline,即使后者使用更多比特 #Mentzer et al., 2020

一句话概括 HiFiC:它承认 rate-distortion-perception 三角不可兼得,然后用 GAN 把低码率重建推向“视觉可信”的一侧。
HiFiC low bitrate reconstruction example
图 1:HiFiC 在约 0.198 bpp 下的重建局部。论文用这类纹理密集图像说明 GAN 压缩不只是提高指标,而是减少低码率下的块效应和平滑感。(来源:Mentzer et al., 2020, Fig. 1 局部)
BPG reconstruction at similar bitrate
图 2:相近码率 BPG 的局部结果。BPG 在 PSNR 路线上很强,但低码率下仍可见块效应和纹理损失。(来源:Mentzer et al., 2020, Fig. 1 局部)
Part 2 · 问题剖析
Rate-Distortion-Perception 三角为什么绕不开

学习式图像压缩通常从 Shannon 的 rate-distortion 视角出发:编码器把图像 $x$ 压成 latent $y$,概率模型估计保存 $y$ 需要多少 bit,解码器再生成重建 $x'$。如果失真项是 MSE,那么模型会倾向于输出条件均值;而在纹理不确定时,条件均值经常就是模糊。Blau 和 Michaeli 进一步把“看起来像真实图像”形式化为 perception 维度,指出在固定 rate 下,改善 perceptual quality 往往意味着 distortion 变差 #Blau and Michaeli, 2019

普通学习式压缩目标

$$\mathcal{L}_{EG}=\mathbb{E}_{x\sim p_X}\left[\lambda_R r(y)+d(x,x')\right]$$

这里 $y=E(x)$$x'=G(y)$$r(y)=-\log P(y)$ 是概率模型估计的码长,$d(x,x')$ 常取 MSE 或 MS-SSIM。它优化的是“用多少 bit 换多少像素/结构误差”,但不直接保证重建图像服从自然图像分布 #Mentzer et al., 2020

HiFiC 的动机不是否定 PSNR,而是指出:如果目标场景是低码率视觉浏览,那么“每个像素都保守地接近原图”未必是最好的选择。低码率时,压缩器必须决定哪些信息真正传输、哪些细节只能由解码器补全;GAN 的价值就在于给补全出来的局部纹理加上自然图像分布约束 #Mentzer et al., 2020

路线代表目标低码率倾向HiFiC 的判断
失真导向压缩MSE / PSNR / MS-SSIM保守、平滑、像素更接近适合需要精确还原的场景,但观感可能差
感知导向压缩LPIPS / FID / GAN loss纹理更真实,但像素不一定逐点对齐适合低码率主观视觉质量优先的场景
HiFiCrate + MSE + LPIPS + conditional GAN在码率约束下向视觉真实侧移动用用户研究判断这个移动是否值得
Part 3 · 模型结构与创新
把 GAN 接进端到端压缩器,而不是只做后处理

HiFiC 的系统由四个网络组成:encoder $E$、generator/decoder $G$、probability model $P$ 和 discriminator $D$。编码阶段,$E$ 产生 latent $y$$P$ 估计其概率并支持算术编码;解码阶段,$G$ 根据量化 latent 生成重建图像。GAN 不是作为外部修图器接在最后,而是直接进入压缩训练目标,和 rate、MSE、LPIPS 一起塑造 latent 与 decoder #Mentzer et al., 2020

HiFiC architecture
图 3:HiFiC 架构。系统包含 encoder、generator、hyperprior 概率模型和条件判别器;判别器接收图像和上采样 latent,使 GAN 判断受压缩表示约束。(来源:Mentzer et al., 2020, Fig. 2)

核心损失:用同一个目标同时管码率、失真和感知

HiFiC 把普通 rate-distortion 目标扩展为包含 LPIPS 和 GAN 的目标。论文将 MSE 与 LPIPS 合成点对点 distortion,再加入条件判别器的非饱和 GAN loss。生成器侧目标可以写成:

HiFiC 生成器 / 压缩器目标

$$\mathcal{L}_{EGP}=\mathbb{E}_{x\sim p_X}\left[\lambda_R r(y)+\lambda_{MSE}\operatorname{MSE}(x,x')+\lambda_P d_P(x,x')-\lambda_D\log D(x',y)\right]$$

其中 $d_P$ 取 LPIPS,$D(x',y)$ 表示判别器在 latent 条件 $y$ 下认为重建图像为真实图像的概率。这个式子把“少用 bit”“别偏离原图太远”和“看起来像真实图像”放在同一个优化问题里 #Mentzer et al., 2020

判别器也有一个关键细节:它是 conditional discriminator。也就是说,$D$ 不只看图像本身,还看压缩 latent $y$。如果判别器不看 $y$,生成器理论上可以生成一张自然但和输入内容无关的图像来骗过它;加入 $y$ 后,判别器要判断的是“在这个压缩表示条件下,这张图是否像真实原图”。论文的消融显示,条件判别器带来更好的 FID,也让训练更可靠 #Mentzer et al., 2020

graph LR
  A[输入图像 x] --> B[Encoder E]
  B --> C[量化 latent y]
  C --> D[Probability model P
估计码长 r(y)] C --> E[Generator G] E --> F[重建 x'] C --> G[上采样 latent 条件] F --> H[Discriminator D] A --> H G --> H H --> I[GAN loss]

ChannelNorm:一个容易被忽略但很关键的工程选择

论文还提出 ChannelNorm 来替代 autoencoder 中的 InstanceNorm。InstanceNorm 会在空间维度上求均值和方差,作者发现当模型从训练 crop 尺寸泛化到更大分辨率图像时,InstanceNorm 容易引入明显暗化。ChannelNorm 改为在每个空间位置跨 channel 归一化,避免归一化统计量依赖图像宽高 #Mentzer et al., 2020

ChannelNorm

$$f'_{chw}=\frac{f_{chw}-\mu_{hw}}{\sigma_{hw}}\alpha_c+\beta_c,\quad \mu_{hw}=\frac{1}{C}\sum_{c=1}^{C}f_{chw}$$

它在每个位置 $(h,w)$ 上跨通道归一化,并使用每通道可学习参数 $\alpha_c,\beta_c$。和 InstanceNorm 相比,它不把整张图的空间统计混进归一化,因此更适合高分辨率推理 #Mentzer et al., 2020

Part 4 · 训练方法
目标码率、Warmup 与 2M steps:GAN 压缩是被驯出来的

HiFiC 的训练不是简单把 GAN loss 加进去就结束。论文指出,如果固定 $ \lambda_R$,不同的 MSE、LPIPS、GAN 权重会把模型推到不同 bitrate,导致比较不公平。因此作者引入目标码率 $r_t$ 和自适应 $ \lambda_R'$:当当前码率超过目标时用更大的惩罚 $ \lambda_{Ra}$,否则用较小的 $ \lambda_{Rb}$,让不同模型围绕可比码率训练 #Mentzer et al., 2020

设置数值说明
训练 crop256×256训练图像随机缩放到 500–1000 像素后裁剪
评估集Kodak 24 / CLIC2020 428 / DIV2K 100不针对评估集做适配,直接全分辨率测试
优化器Adam, learning rate 1e-4$E,G,P$$D$ 交替训练
训练步数2M stepsGAN 模型由 MSE+LPIPS warmup 初始化后继续训练
固定超参数$\lambda_{Rb}=2^{-4}$, $\lambda_{MSE}=0.075\cdot2^{-5}$, $\lambda_P=1$, $C_y=220$论文补充材料给出的主要固定设置
目标码率0.14 / 0.30 / 0.45对应 HiFiC-Lo、Mi、Hi 三个 operating points

还有一个稳定性细节:HiFiC 的 GAN 模型不是完全从零开始训练,而是从只含 MSE+LPIPS 的 warmup 模型初始化。论文的失败实验说明,只有 GAN、没有 MSE/LPIPS 约束时,如果联合学习 encoder,训练会 collapse;而 MSE 在这里不仅是指标偏好,更像是稳定训练的锚点 #Mentzer et al., 2020

LPIPS perceptual loss example
图 4:使用 LPIPS 后的视觉局部。论文发现去掉 $d_P$ 会出现 gridding artifacts,VGG perceptual loss 仍有残留,而 LPIPS 能更好缓解这类纹理问题。(来源:Mentzer et al., 2020, Fig. 7 局部)
Part 5 · 实验验证
最有说服力的结果不是曲线,而是用户真的更喜欢

HiFiC 最重要的实验是 2AFC 用户研究。作者从 CLIC2020 随机选取 20 张图,14 名参与者平均每人比较 348 对方法,总计 4876 次比较。参与者看到两个重建 crop 和原图,选择“哪一个更接近原图”。最后用 Elo 排名,并做 10000 次 Monte Carlo shuffle 得到稳定排序 #Mentzer et al., 2020

HiFiC user study results
图 5:用户研究排序。HiFiC-Lo 在 0.120 bpp 可接近 BPG 0.390 bpp 和 M&S 0.405 bpp 的 Elo;HiFiC-Mi 在 0.237 bpp 优于 BPG 0.504 bpp。(来源:Mentzer et al., 2020, Fig. 3)
结论具体数字含义
HiFiC-Lo 接近高码率基线0.120 bpp vs BPG 0.390 bpp / M&S 0.405 bpp人类偏好上可接近 3.3×–3.4× 码率的传统/学习式基线
HiFiC-Mi 超过 BPG0.237 bpp 优于 BPG 0.504 bpp在一半以下码率下获得更好主观偏好
GAN 有明确增益HiFiC 优于同架构 no-GAN baselineLPIPS 之外,GAN loss 本身对主观观感有贡献

定量指标部分则更微妙。HiFiC 在 FID、KID、NIQE、LPIPS 等感知相关指标上占优,但 PSNR 和 MS-SSIM 相对较差。论文并不把这看成缺陷,而是用它验证 rate-distortion-perception trade-off:当 GAN 权重 $ \lambda_D$ 增大,FID 变好,MSE/LPIPS 组成的 distortion 变差;这说明模型确实沿着感知质量方向移动 #Mentzer et al., 2020

Rate distortion and perception curves on CLIC2020
图 6:CLIC2020 上的 rate-distortion / rate-perception 曲线。HiFiC 在感知指标上领先,但 PSNR/MS-SSIM 不占优。(来源:Mentzer et al., 2020, Fig. 4)
Distortion perception tradeoff
图 7:改变 GAN 权重会移动 distortion-perception operating point。FID 改善时,失真指标变差,这正是 R-D-P 理论在真实压缩系统里的表现。(来源:Mentzer et al., 2020, Fig. 5)

消融实验给出的工程建议

论文的消融很有实用价值:条件判别器优于非条件判别器,因为它迫使生成结果尊重输入 latent;SpectralNorm 在非条件设置下显著降低 FID/KID 跨运行波动;generator 容量不足会损害 FID 和 PSNR,残差块数从 1 增到 5 后明显改善,默认使用 9 个 residual blocks;去掉 LPIPS 会引入网格状伪影,只用 GAN 则训练不稳定 #Mentzer et al., 2020

HiFiC 仍然会失败

论文明确提到两个失败场景:很小的文字可能被重建成像另一种文字的纹理,小脸可能出现高频噪声。这类失败说明生成式压缩的“看起来真实”并不等于语义完全忠实,尤其在细小结构和可识别身份信息上要谨慎使用 #Mentzer et al., 2020

Part 6 · 讨论与启发
HiFiC 在生成式压缩路线上的位置

HiFiC 的历史位置很清楚:它把 GAN 压缩从“概念上可行”推进到“系统上可信”。此前已有 Agustsson 等人在极低码率压缩里展示 GAN 的潜力,但 HiFiC 更系统地回答了几个问题:怎么让 GAN 与熵模型一起训练,怎么处理高分辨率泛化,怎么用条件判别器避免无关生成,怎么用用户研究验证主观质量 #Agustsson et al., 2019 #Mentzer et al., 2020

方法生成机制主要优势主要风险
BPG / 传统 codec手工变换与预测编码稳定、可解释、PSNR 强低码率块效应和纹理损失明显
M&S Hyperprior学习式 transform codingrate-distortion 强,训练目标清晰MSE 路线低码率容易平滑
HiFiC条件 GAN decoder低码率主观质量强,用户研究支持小文字、小脸等细节可能幻觉化
后续 diffusion compression条件扩散解码更强生成先验与感知质量采样成本、忠实性与幻觉问题更突出

读完 HiFiC,最值得带走的不是“GAN 比 MSE 好”这种简单结论,而是一个评估框架:低码率压缩必须说清楚自己优化的是哪一类质量。如果服务医学、遥感、档案保存,失真指标和语义忠实可能优先;如果服务缩略图、社交媒体和低码率浏览,人眼偏好和感知质量可能更重要。HiFiC 的价值在于,它没有只给出更漂亮的图,而是把这种选择放进了损失函数、架构设计、消融实验和用户研究里 #Mentzer et al., 2020

可操作启发:做生成式压缩时,不要只报告 FID/LPIPS,也要报告失败案例、用户偏好、码率匹配策略和语义忠实风险;否则“看起来更真”可能只是把错误生成得更自然。

这也解释了为什么后来的扩散式图像压缩、one-step diffusion codec、可控 distortion-perception 方法都绕不开 HiFiC。它把生成式压缩的核心问题先摆到了桌面上:当 bit 不够时,哪些细节应该传输,哪些细节可以生成,生成出来的东西又该由谁来判定“好”?#Yang and Mandt, 2024 #Zhou et al., 2024

参考来源

  • Mentzer, F., Toderici, G., Tschannen, M., & Agustsson, E. (2020). High-Fidelity Generative Image Compression. NeurIPS 2020. arXiv:2006.09965
  • Blau, Y., & Michaeli, T. (2019). Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff. ICML 2019. arXiv:1901.07821
  • Agustsson, E., Tschannen, M., Mentzer, F., Timofte, R., & Van Gool, L. (2019). Generative Adversarial Networks for Extreme Learned Image Compression. ICCV 2019. CVF Open Access
  • Ballé, J., Minnen, D., Singh, S., Hwang, S. J., & Johnston, N. (2018). Variational Image Compression with a Scale Hyperprior. ICLR 2018. OpenReview
  • Minnen, D., Ballé, J., & Toderici, G. (2018). Joint Autoregressive and Hierarchical Priors for Learned Image Compression. NeurIPS 2018. NeurIPS
  • Yang, R., & Mandt, S. (2024). Lossy Image Compression with Conditional Diffusion Models. NeurIPS. arXiv:2209.06950
  • Zhou, C. et al. (2024). Controllable Distortion-Perception Tradeoff Through Latent Diffusion for Neural Image Compression. arXiv:2412.11379
  • HiFiC project page. hific.github.io
  • TensorFlow Compression HiFiC implementation. GitHub: tensorflow/compression/models/hific