高保真 GAN
早期 GAN 证明了对抗训练可以生成图像,但高分辨率图像会放大所有问题。生成器需要同时处理整体结构和局部纹理,判别器也更容易从细节中找到真假差异;如果一开始就在高分辨率上训练,梯度信号可能被局部伪影主导,训练动态很容易失衡。PGGAN、SAGAN、BigGAN 和 StyleGAN 的共同目标,就是把高分辨率生成拆成更可控的工程问题 #Karras et al., 2017 #Zhang et al., 2018 #Brock et al., 2018 #Karras et al., 2018。
PGGAN 的直觉非常工程化:先从低分辨率开始训练,让模型掌握粗略结构,再逐步增加生成器和判别器层数,把分辨率提高到 1024×1024。Karras 等人把这种策略称为 progressive growing,并报告它能显著提升训练稳定性、生成质量和样本变化度 #Karras et al., 2017。
这个策略解决的是优化路径问题,而不是单纯模型容量问题。高分辨率图像包含大量细节,如果模型一开始就面对全部频率成分,很容易在局部纹理上震荡;逐级训练则像课程学习,先学低频结构,再学高频细节。论文在 CelebA-HQ 上生成 1024×1024 人脸,并在无监督 CIFAR-10 上报告 8.80 的 Inception Score #Karras et al., 2017。
卷积适合局部纹理,但图像真实感也依赖远距离结构一致性,例如动物头部和身体、左右眼、背景与主体之间的关系。SAGAN 把 self-attention 引入 GAN,让生成器和判别器都能建模远距离依赖,并结合谱归一化改善训练动态 #Zhang et al., 2018。
SAGAN 在 ImageNet 上给出非常明确的质量跃迁:Inception Score 从此前最佳的 36.8 提升到 52.52,FID 从 27.62 降到 18.65 #Zhang et al., 2018。这个结果说明,高保真生成不只是“卷积堆得更深”,还需要让模型理解跨区域关系。
Self-attention 的生成意义
在 GAN 中加入注意力,相当于允许一个位置根据全图其他位置更新特征。它不是替代卷积,而是补足卷积在长距离结构上的短板。
BigGAN 证明了规模化对 GAN 同样有效。Brock、Donahue 和 Simonyan 使用更大的模型、更大的 batch、类别条件 BatchNorm、谱归一化、正交正则和 truncation trick,在 ImageNet 类别条件生成上显著刷新质量 #Brock et al., 2018。
| 模型/设置 | 分辨率 | Inception Score | FID |
|---|---|---|---|
| SAGAN baseline | 128×128 | 52.52 | 18.65 |
| BigGAN | 128×128 | 166.5 | 7.4 |
| BigGAN | 256×256 | 232.5 | 8.1 |
| BigGAN | 512×512 | 241.5 | 11.5 |
但 BigGAN 也揭示了高性能 GAN 的脆弱性。论文指出,大模型训练可能出现突然崩溃,完全稳定化有时会牺牲最高性能 #Brock et al., 2018。truncation trick 则体现了质量和多样性的权衡:缩小潜变量采样范围可以提高样本保真度,但也可能减少模式覆盖。
StyleGAN 的关键不是简单增大网络,而是重写生成器。Karras、Laine 和 Aila 引入 mapping network,把输入潜变量映射到中间潜空间 $W$,再通过逐层 style modulation 控制生成过程;随机噪声则用于控制毛发、雀斑等细粒度随机细节 #Karras et al., 2018。
这种架构把图像属性分层:高层控制姿态、脸型等粗结构,低层控制颜色、纹理和细节。论文在 FFHQ 上把 Progressive GAN baseline 的 FID 8.04 改进到约 4.40,并展示了更好的潜空间可分解性 #Karras et al., 2018。StyleGAN2 随后分析水滴状伪影,重新设计归一化方式,并加入 path length regularization,使潜空间到图像的映射条件更好 #Karras et al., 2019。
StyleGAN 的核心转向
PGGAN 关注“如何训练高分辨率”,BigGAN 关注“如何规模化提升质量”,StyleGAN 则进一步关注“高质量图像是否可控、可编辑、可解释”。
高保真 GAN 的历史说明,质量提升往往来自多个因素叠加:PGGAN 优化训练路径,SAGAN 增强长程依赖,BigGAN 放大模型与 batch,StyleGAN 重构潜空间和生成器。它们共同把 GAN 从“能生成自然图像”推进到“能生成高分辨率、可控、可编辑的图像”。
参考来源
- Karras, T. et al. (2017). Progressive Growing of GANs for Improved Quality, Stability, and Variation. arXiv:1710.10196.
- Zhang, H. et al. (2018). Self-Attention Generative Adversarial Networks. arXiv:1805.08318.
- Brock, A. et al. (2018). Large Scale GAN Training for High Fidelity Natural Image Synthesis. arXiv:1809.11096.
- Karras, T. et al. (2018). A Style-Based Generator Architecture for Generative Adversarial Networks. arXiv:1812.04948.
- Karras, T. et al. (2019). Analyzing and Improving the Image Quality of StyleGAN. arXiv:1912.04958.