图像压缩论文精读（一）：HiFiC，GAN 如何把压缩推向视觉可信

2026/06/03 11:49:18

image-compression generative-compression GAN learned-compression HiFiC

Part 1 · 引言

压缩图像到底要“像原图”，还是要“像真的”？

HiFiC 的问题意识很朴素：低码率下，传统压缩器常常能给出较高 PSNR，却把头发、毛衣、草地、墙面颗粒这些高频纹理压成一片平滑；人眼看上去不一定更喜欢这种“平均正确”的图像。High-Fidelity Generative Image Compression 正是在这个矛盾上做系统实验：把 GAN、LPIPS、学习式熵编码和用户研究放进同一个图像压缩系统，观察低码率下到底什么样的重建更符合人类偏好 #Mentzer et al., 2020。

这篇论文由 Fabian Mentzer、George Toderici、Michael Tschannen 和 Eirikur Agustsson 完成，NeurIPS 2020 发表，项目页为 hific.github.io。它不是第一篇把 GAN 用在压缩里的工作，但它的贡献在于把这条路线做成了一个可比较、可消融、可被用户研究验证的系统：模型覆盖多个码率，能处理高分辨率图片，并且在主观评价中击败了 BPG 和强学习式 MSE baseline，即使后者使用更多比特 #Mentzer et al., 2020。

一句话概括 HiFiC：它承认 rate-distortion-perception 三角不可兼得，然后用 GAN 把低码率重建推向“视觉可信”的一侧。

HiFiC low bitrate reconstruction example

图 1：HiFiC 在约 0.198 bpp 下的重建局部。论文用这类纹理密集图像说明 GAN 压缩不只是提高指标，而是减少低码率下的块效应和平滑感。（来源：Mentzer et al., 2020, Fig. 1 局部）

图 2：相近码率 BPG 的局部结果。BPG 在 PSNR 路线上很强，但低码率下仍可见块效应和纹理损失。（来源：Mentzer et al., 2020, Fig. 1 局部）

Part 2 · 问题剖析

Rate-Distortion-Perception 三角为什么绕不开

学习式图像压缩通常从 Shannon 的 rate-distortion 视角出发：编码器把图像 $$x$$ 压成 latent $$y$$ ，概率模型估计保存 $$y$$ 需要多少 bit，解码器再生成重建 $$x'$$ 。如果失真项是 MSE，那么模型会倾向于输出条件均值；而在纹理不确定时，条件均值经常就是模糊。Blau 和 Michaeli 进一步把“看起来像真实图像”形式化为 perception 维度，指出在固定 rate 下，改善 perceptual quality 往往意味着 distortion 变差 #Blau and Michaeli, 2019。

普通学习式压缩目标

\mathcal{L}_{EG}=\mathbb{E}_{x\sim p_X}\left[\lambda_R r(y)+d(x,x')\right]

这里 $$y=E(x)$$ ， $$x'=G(y)$$ ， $r(y)=-\log P(y)$ 是概率模型估计的码长， $$d(x,x')$$ 常取 MSE 或 MS-SSIM。它优化的是“用多少 bit 换多少像素/结构误差”，但不直接保证重建图像服从自然图像分布 #Mentzer et al., 2020。

HiFiC 的动机不是否定 PSNR，而是指出：如果目标场景是低码率视觉浏览，那么“每个像素都保守地接近原图”未必是最好的选择。低码率时，压缩器必须决定哪些信息真正传输、哪些细节只能由解码器补全；GAN 的价值就在于给补全出来的局部纹理加上自然图像分布约束 #Mentzer et al., 2020。

路线	代表目标	低码率倾向	HiFiC 的判断
失真导向压缩	MSE / PSNR / MS-SSIM	保守、平滑、像素更接近	适合需要精确还原的场景，但观感可能差
感知导向压缩	LPIPS / FID / GAN loss	纹理更真实，但像素不一定逐点对齐	适合低码率主观视觉质量优先的场景
HiFiC	rate + MSE + LPIPS + conditional GAN	在码率约束下向视觉真实侧移动	用用户研究判断这个移动是否值得

Part 3 · 模型结构与创新

把 GAN 接进端到端压缩器，而不是只做后处理

HiFiC 的系统由四个网络组成：encoder $$E$$ 、generator/decoder $$G$$ 、probability model $$P$$ 和 discriminator $$D$$ 。编码阶段， $$E$$ 产生 latent $$y$$ ， $$P$$ 估计其概率并支持算术编码；解码阶段， $$G$$ 根据量化 latent 生成重建图像。GAN 不是作为外部修图器接在最后，而是直接进入压缩训练目标，和 rate、MSE、LPIPS 一起塑造 latent 与 decoder #Mentzer et al., 2020。

图 3：HiFiC 架构。系统包含 encoder、generator、hyperprior 概率模型和条件判别器；判别器接收图像和上采样 latent，使 GAN 判断受压缩表示约束。（来源：Mentzer et al., 2020, Fig. 2）

核心损失：用同一个目标同时管码率、失真和感知

HiFiC 把普通 rate-distortion 目标扩展为包含 LPIPS 和 GAN 的目标。论文将 MSE 与 LPIPS 合成点对点 distortion，再加入条件判别器的非饱和 GAN loss。生成器侧目标可以写成：

HiFiC 生成器 / 压缩器目标

\mathcal{L}_{EGP}=\mathbb{E}_{x\sim p_X}\left[\lambda_R r(y)+\lambda_{MSE}\operatorname{MSE}(x,x')+\lambda_P d_P(x,x')-\lambda_D\log D(x',y)\right]

其中 $$d_P$$ 取 LPIPS， $$D(x',y)$$ 表示判别器在 latent 条件 $$y$$ 下认为重建图像为真实图像的概率。这个式子把“少用 bit”“别偏离原图太远”和“看起来像真实图像”放在同一个优化问题里 #Mentzer et al., 2020。

判别器也有一个关键细节：它是 conditional discriminator。也就是说， $$D$$ 不只看图像本身，还看压缩 latent $$y$$ 。如果判别器不看 $$y$$ ，生成器理论上可以生成一张自然但和输入内容无关的图像来骗过它；加入 $$y$$ 后，判别器要判断的是“在这个压缩表示条件下，这张图是否像真实原图”。论文的消融显示，条件判别器带来更好的 FID，也让训练更可靠 #Mentzer et al., 2020。

graph LR
  A[输入图像 x] --> B[Encoder E]
  B --> C[量化 latent y]
  C --> D[Probability model P
估计码长 r(y)]
  C --> E[Generator G]
  E --> F[重建 x']
  C --> G[上采样 latent 条件]
  F --> H[Discriminator D]
  A --> H
  G --> H
  H --> I[GAN loss]

ChannelNorm：一个容易被忽略但很关键的工程选择

论文还提出 ChannelNorm 来替代 autoencoder 中的 InstanceNorm。InstanceNorm 会在空间维度上求均值和方差，作者发现当模型从训练 crop 尺寸泛化到更大分辨率图像时，InstanceNorm 容易引入明显暗化。ChannelNorm 改为在每个空间位置跨 channel 归一化，避免归一化统计量依赖图像宽高 #Mentzer et al., 2020。

ChannelNorm

f'_{chw}=\frac{f_{chw}-\mu_{hw}}{\sigma_{hw}}\alpha_c+\beta_c,\quad \mu_{hw}=\frac{1}{C}\sum_{c=1}^{C}f_{chw}

它在每个位置 $$(h,w)$$ 上跨通道归一化，并使用每通道可学习参数 $\alpha_c,\beta_c$ 。和 InstanceNorm 相比，它不把整张图的空间统计混进归一化，因此更适合高分辨率推理 #Mentzer et al., 2020。

Part 4 · 训练方法

目标码率、Warmup 与 2M steps：GAN 压缩是被驯出来的

HiFiC 的训练不是简单把 GAN loss 加进去就结束。论文指出，如果固定 $ \lambda_R $$，不同的 MSE、LPIPS、GAN 权重会把模型推到不同 bitrate，导致比较不公平。因此作者引入目标码率 $$ r_t $$ 和自适应 $$ \lambda_R' $$：当当前码率超过目标时用更大的惩罚 $$ \lambda_{Ra} $$，否则用较小的 $$ \lambda_{Rb}$，让不同模型围绕可比码率训练 #Mentzer et al., 2020。

设置	数值	说明
训练 crop	256×256	训练图像随机缩放到 500–1000 像素后裁剪
评估集	Kodak 24 / CLIC2020 428 / DIV2K 100	不针对评估集做适配，直接全分辨率测试
优化器	Adam, learning rate 1e-4	$$E,G,P$$ 与 $$D$$ 交替训练
训练步数	2M steps	GAN 模型由 MSE+LPIPS warmup 初始化后继续训练
固定超参数	$\lambda_{Rb}=2^{-4}$ , $\lambda_{MSE}=0.075\cdot2^{-5}$ , $\lambda_P=1$ , $$C_y=220$$	论文补充材料给出的主要固定设置
目标码率	0.14 / 0.30 / 0.45	对应 HiFiC-Lo、Mi、Hi 三个 operating points

还有一个稳定性细节：HiFiC 的 GAN 模型不是完全从零开始训练，而是从只含 MSE+LPIPS 的 warmup 模型初始化。论文的失败实验说明，只有 GAN、没有 MSE/LPIPS 约束时，如果联合学习 encoder，训练会 collapse；而 MSE 在这里不仅是指标偏好，更像是稳定训练的锚点 #Mentzer et al., 2020。

图 4：使用 LPIPS 后的视觉局部。论文发现去掉

$d_P$

会出现 gridding artifacts，VGG perceptual loss 仍有残留，而 LPIPS 能更好缓解这类纹理问题。（来源：Mentzer et al., 2020, Fig. 7 局部）

Part 5 · 实验验证

最有说服力的结果不是曲线，而是用户真的更喜欢

HiFiC 最重要的实验是 2AFC 用户研究。作者从 CLIC2020 随机选取 20 张图，14 名参与者平均每人比较 348 对方法，总计 4876 次比较。参与者看到两个重建 crop 和原图，选择“哪一个更接近原图”。最后用 Elo 排名，并做 10000 次 Monte Carlo shuffle 得到稳定排序 #Mentzer et al., 2020。

图 5：用户研究排序。HiFiC-Lo 在 0.120 bpp 可接近 BPG 0.390 bpp 和 M&S 0.405 bpp 的 Elo；HiFiC-Mi 在 0.237 bpp 优于 BPG 0.504 bpp。（来源：Mentzer et al., 2020, Fig. 3）

结论	具体数字	含义
HiFiC-Lo 接近高码率基线	0.120 bpp vs BPG 0.390 bpp / M&S 0.405 bpp	人类偏好上可接近 3.3×–3.4× 码率的传统/学习式基线
HiFiC-Mi 超过 BPG	0.237 bpp 优于 BPG 0.504 bpp	在一半以下码率下获得更好主观偏好
GAN 有明确增益	HiFiC 优于同架构 no-GAN baseline	LPIPS 之外，GAN loss 本身对主观观感有贡献

定量指标部分则更微妙。HiFiC 在 FID、KID、NIQE、LPIPS 等感知相关指标上占优，但 PSNR 和 MS-SSIM 相对较差。论文并不把这看成缺陷，而是用它验证 rate-distortion-perception trade-off：当 GAN 权重 $ \lambda_D$ 增大，FID 变好，MSE/LPIPS 组成的 distortion 变差；这说明模型确实沿着感知质量方向移动 #Mentzer et al., 2020。

Rate distortion and perception curves on CLIC2020

图 6：CLIC2020 上的 rate-distortion / rate-perception 曲线。HiFiC 在感知指标上领先，但 PSNR/MS-SSIM 不占优。（来源：Mentzer et al., 2020, Fig. 4）

图 7：改变 GAN 权重会移动 distortion-perception operating point。FID 改善时，失真指标变差，这正是 R-D-P 理论在真实压缩系统里的表现。（来源：Mentzer et al., 2020, Fig. 5）

消融实验给出的工程建议

论文的消融很有实用价值：条件判别器优于非条件判别器，因为它迫使生成结果尊重输入 latent；SpectralNorm 在非条件设置下显著降低 FID/KID 跨运行波动；generator 容量不足会损害 FID 和 PSNR，残差块数从 1 增到 5 后明显改善，默认使用 9 个 residual blocks；去掉 LPIPS 会引入网格状伪影，只用 GAN 则训练不稳定 #Mentzer et al., 2020。

HiFiC 仍然会失败

论文明确提到两个失败场景：很小的文字可能被重建成像另一种文字的纹理，小脸可能出现高频噪声。这类失败说明生成式压缩的“看起来真实”并不等于语义完全忠实，尤其在细小结构和可识别身份信息上要谨慎使用 #Mentzer et al., 2020。

Part 6 · 讨论与启发

HiFiC 在生成式压缩路线上的位置

HiFiC 的历史位置很清楚：它把 GAN 压缩从“概念上可行”推进到“系统上可信”。此前已有 Agustsson 等人在极低码率压缩里展示 GAN 的潜力，但 HiFiC 更系统地回答了几个问题：怎么让 GAN 与熵模型一起训练，怎么处理高分辨率泛化，怎么用条件判别器避免无关生成，怎么用用户研究验证主观质量 #Agustsson et al., 2019 #Mentzer et al., 2020。

方法	生成机制	主要优势	主要风险
BPG / 传统 codec	手工变换与预测编码	稳定、可解释、PSNR 强	低码率块效应和纹理损失明显
M&S Hyperprior	学习式 transform coding	rate-distortion 强，训练目标清晰	MSE 路线低码率容易平滑
HiFiC	条件 GAN decoder	低码率主观质量强，用户研究支持	小文字、小脸等细节可能幻觉化
后续 diffusion compression	条件扩散解码	更强生成先验与感知质量	采样成本、忠实性与幻觉问题更突出

读完 HiFiC，最值得带走的不是“GAN 比 MSE 好”这种简单结论，而是一个评估框架：低码率压缩必须说清楚自己优化的是哪一类质量。如果服务医学、遥感、档案保存，失真指标和语义忠实可能优先；如果服务缩略图、社交媒体和低码率浏览，人眼偏好和感知质量可能更重要。HiFiC 的价值在于，它没有只给出更漂亮的图，而是把这种选择放进了损失函数、架构设计、消融实验和用户研究里 #Mentzer et al., 2020。

可操作启发：做生成式压缩时，不要只报告 FID/LPIPS，也要报告失败案例、用户偏好、码率匹配策略和语义忠实风险；否则“看起来更真”可能只是把错误生成得更自然。

这也解释了为什么后来的扩散式图像压缩、one-step diffusion codec、可控 distortion-perception 方法都绕不开 HiFiC。它把生成式压缩的核心问题先摆到了桌面上：当 bit 不够时，哪些细节应该传输，哪些细节可以生成，生成出来的东西又该由谁来判定“好”？#Yang and Mandt, 2024 #Zhou et al., 2024

专题页生成式图像压缩枢纽页图像压缩研究地图下一篇CDC：扩散模型压缩

参考来源

Mentzer, F., Toderici, G., Tschannen, M., & Agustsson, E. (2020). High-Fidelity Generative Image Compression. NeurIPS 2020. arXiv:2006.09965
Blau, Y., & Michaeli, T. (2019). Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff. ICML 2019. arXiv:1901.07821
Agustsson, E., Tschannen, M., Mentzer, F., Timofte, R., & Van Gool, L. (2019). Generative Adversarial Networks for Extreme Learned Image Compression. ICCV 2019. CVF Open Access
Ballé, J., Minnen, D., Singh, S., Hwang, S. J., & Johnston, N. (2018). Variational Image Compression with a Scale Hyperprior. ICLR 2018. OpenReview
Minnen, D., Ballé, J., & Toderici, G. (2018). Joint Autoregressive and Hierarchical Priors for Learned Image Compression. NeurIPS 2018. NeurIPS
Yang, R., & Mandt, S. (2024). Lossy Image Compression with Conditional Diffusion Models. NeurIPS. arXiv:2209.06950
Zhou, C. et al. (2024). Controllable Distortion-Perception Tradeoff Through Latent Diffusion for Neural Image Compression. arXiv:2412.11379
HiFiC project page. hific.github.io
TensorFlow Compression HiFiC implementation. GitHub: tensorflow/compression/models/hific

HiFiC：GAN 压缩的里程碑

普通学习式压缩目标

核心损失：用同一个目标同时管码率、失真和感知

HiFiC 生成器 / 压缩器目标

ChannelNorm：一个容易被忽略但很关键的工程选择

ChannelNorm

消融实验给出的工程建议

参考来源