高保真 GAN：从 PGGAN、SAGAN、BigGAN 到 StyleGAN

2026/06/02 17:12:40

AIGAN·7 min read

GAN PGGAN SAGAN BigGAN StyleGAN high-fidelity-generation

第一章

高保真生成的难点：分辨率越高，博弈越脆弱

早期 GAN 证明了对抗训练可以生成图像，但高分辨率图像会放大所有问题。生成器需要同时处理整体结构和局部纹理，判别器也更容易从细节中找到真假差异；如果一开始就在高分辨率上训练，梯度信号可能被局部伪影主导，训练动态很容易失衡。PGGAN、SAGAN、BigGAN 和 StyleGAN 的共同目标，就是把高分辨率生成拆成更可控的工程问题 #Karras et al., 2017 #Zhang et al., 2018 #Brock et al., 2018 #Karras et al., 2018。

图 1：高保真 GAN 的演进，从渐进增长到注意力、规模化和 style-based generator。

第二章

PGGAN：不要一开始就打最终 Boss

PGGAN 的直觉非常工程化：先从低分辨率开始训练，让模型掌握粗略结构，再逐步增加生成器和判别器层数，把分辨率提高到 1024×1024。Karras 等人把这种策略称为 progressive growing，并报告它能显著提升训练稳定性、生成质量和样本变化度 #Karras et al., 2017。

这个策略解决的是优化路径问题，而不是单纯模型容量问题。高分辨率图像包含大量细节，如果模型一开始就面对全部频率成分，很容易在局部纹理上震荡；逐级训练则像课程学习，先学低频结构，再学高频细节。论文在 CelebA-HQ 上生成 1024×1024 人脸，并在无监督 CIFAR-10 上报告 8.80 的 Inception Score #Karras et al., 2017。

PGGAN 的启发：稳定性不仅来自 loss，也来自训练路径。把任务拆成分辨率阶段，本质上是在降低每一步博弈的难度。

第三章

SAGAN：卷积不够时，引入长程依赖

卷积适合局部纹理，但图像真实感也依赖远距离结构一致性，例如动物头部和身体、左右眼、背景与主体之间的关系。SAGAN 把 self-attention 引入 GAN，让生成器和判别器都能建模远距离依赖，并结合谱归一化改善训练动态 #Zhang et al., 2018。

SAGAN 在 ImageNet 上给出非常明确的质量跃迁：Inception Score 从此前最佳的 36.8 提升到 52.52，FID 从 27.62 降到 18.65 #Zhang et al., 2018。这个结果说明，高保真生成不只是“卷积堆得更深”，还需要让模型理解跨区域关系。

Self-attention 的生成意义

在 GAN 中加入注意力，相当于允许一个位置根据全图其他位置更新特征。它不是替代卷积，而是补足卷积在长距离结构上的短板。

第四章

BigGAN：规模化会带来质量跃迁，也会带来崩溃风险

BigGAN 证明了规模化对 GAN 同样有效。Brock、Donahue 和 Simonyan 使用更大的模型、更大的 batch、类别条件 BatchNorm、谱归一化、正交正则和 truncation trick，在 ImageNet 类别条件生成上显著刷新质量 #Brock et al., 2018。

模型/设置	分辨率	Inception Score	FID
SAGAN baseline	128×128	52.52	18.65
BigGAN	128×128	166.5	7.4
BigGAN	256×256	232.5	8.1
BigGAN	512×512	241.5	11.5

但 BigGAN 也揭示了高性能 GAN 的脆弱性。论文指出，大模型训练可能出现突然崩溃，完全稳定化有时会牺牲最高性能 #Brock et al., 2018。truncation trick 则体现了质量和多样性的权衡：缩小潜变量采样范围可以提高样本保真度，但也可能减少模式覆盖。

第五章

StyleGAN：把潜空间变成可编辑对象

StyleGAN 的关键不是简单增大网络，而是重写生成器。Karras、Laine 和 Aila 引入 mapping network，把输入潜变量映射到中间潜空间 $$W$$ ，再通过逐层 style modulation 控制生成过程；随机噪声则用于控制毛发、雀斑等细粒度随机细节 #Karras et al., 2018。

这种架构把图像属性分层：高层控制姿态、脸型等粗结构，低层控制颜色、纹理和细节。论文在 FFHQ 上把 Progressive GAN baseline 的 FID 8.04 改进到约 4.40，并展示了更好的潜空间可分解性 #Karras et al., 2018。StyleGAN2 随后分析水滴状伪影，重新设计归一化方式，并加入 path length regularization，使潜空间到图像的映射条件更好 #Karras et al., 2019。

StyleGAN 的核心转向

PGGAN 关注“如何训练高分辨率”，BigGAN 关注“如何规模化提升质量”，StyleGAN 则进一步关注“高质量图像是否可控、可编辑、可解释”。

结语

高保真 GAN 是工程系统，不是单个技巧

高保真 GAN 的历史说明，质量提升往往来自多个因素叠加：PGGAN 优化训练路径，SAGAN 增强长程依赖，BigGAN 放大模型与 batch，StyleGAN 重构潜空间和生成器。它们共同把 GAN 从“能生成自然图像”推进到“能生成高分辨率、可控、可编辑的图像”。

参考来源

Karras, T. et al. (2017). Progressive Growing of GANs for Improved Quality, Stability, and Variation. arXiv:1710.10196.
Zhang, H. et al. (2018). Self-Attention Generative Adversarial Networks. arXiv:1805.08318.
Brock, A. et al. (2018). Large Scale GAN Training for High Fidelity Natural Image Synthesis. arXiv:1809.11096.
Karras, T. et al. (2018). A Style-Based Generator Architecture for Generative Adversarial Networks. arXiv:1812.04948.
Karras, T. et al. (2019). Analyzing and Improving the Image Quality of StyleGAN. arXiv:1912.04958.