条件 GAN 与应用
原始 GAN 从噪声 $z$ 生成样本,但它默认不知道用户想要什么。Conditional GAN 的关键改动很小:把条件 $y$ 同时输入生成器和判别器,让模型学习 $p(x|y)$ 而不是无条件分布 $p(x)$。Mirza 和 Osindero 在 2014 年展示了用类别标签控制 MNIST 数字生成,也说明条件可以是类别、属性或其他辅助信息 #Mirza and Osindero, 2014。
cGAN 目标
条件 $y$ 的作用不是附加说明,而是把生成任务变成一个受控映射。
这个小改动打开了 GAN 的应用空间。条件可以是类别标签,也可以是一张图、边缘图、语义分割图、低分辨率图像、医学影像模态或另一个视觉域。于是 GAN 不再只是“从随机噪声画图”,而变成“输入一个条件,输出满足这个条件的图像”。
pix2pix 的贡献是把许多视觉问题统一成 image-to-image translation:输入图像 $x$,输出目标图像 $y$。Isola 等人展示了语义标签到街景、边缘到物体、灰度到彩色、草图到照片等任务,并强调不必为每个任务手写完全不同的损失函数,判别器可以学习任务相关的真实感损失 #Isola et al., 2016。
pix2pix 的训练依赖成对数据,也就是每个输入都要有对应目标。这个约束在工程上很重要:如果你有清晰的 paired dataset,pix2pix 的监督信号强,训练目标明确;但如果只拥有两个域的非配对图片,例如一堆马和一堆斑马,它就不再直接适用。
| 任务 | 输入条件 | 输出 | 关键约束 |
|---|---|---|---|
| 语义标签→街景 | 分割 mask | 真实街景 | 成对标注数据 |
| 边缘→物体 | 边缘图 | 照片 | 形状约束强 |
| 黑白→彩色 | 灰度图 | 彩色图 | 颜色存在多解 |
CycleGAN 面对的是更常见、更困难的设置:只有域 $X$ 和域 $Y$ 的图片集合,没有一一对应样本。Zhu 等人引入两个映射 $G:X\rightarrow Y$ 与 $F:Y\rightarrow X$,再加入 cycle consistency loss,要求 $F(G(x))\approx x$、$G(F(y))\approx y$。这给欠约束的翻译问题加上了“翻过去再翻回来应该不变”的结构先验 #Zhu et al., 2017。
循环一致性损失
它不保证语义完全正确,但显著减少了任意映射的自由度。
CycleGAN 的影响在于,它降低了图像翻译任务的数据门槛。风格迁移、季节转换、马与斑马、照片与绘画等任务都可以在没有配对样本时训练。但它也有局限:循环一致性可能保留低层结构,却不能保证高层语义完全正确;在医学、遥感等严肃场景中,不能把 CycleGAN 输出直接当作事实。
超分辨率展示了 GAN 的另一个价值:像素误差最小不等于人眼看起来真实。Ledig 等人指出,单纯优化 MSE 往往得到 PSNR 高但纹理模糊的图像;SRGAN 使用 adversarial loss 和基于 VGG feature space 的 content loss,让模型更关注自然图像纹理和感知质量 #Ledig et al., 2016。
SRGAN 声称是第一个能够在 $4\times$ 上采样中生成 photo-realistic natural images 的框架,并通过 MOS 测试显示其感知质量明显优于传统方法 #Ledig et al., 2016。它影响了后来大量“像素指标不够,人眼感知更重要”的任务,包括图像增强、压缩后重建、视频超分辨率和生成式修复。
从 cGAN 到 pix2pix、CycleGAN、SRGAN,GAN 的角色发生了变化:它不再只是一个生成模型,而是一个可学习的任务损失。pix2pix 让判别器判断“输出是否像给定输入对应的真实目标”,CycleGAN 让判别器配合循环约束完成无配对域迁移,SRGAN 则让判别器补足像素损失在感知质量上的缺陷。这个思想后来继续影响了图像增强、生成式压缩和视觉内容编辑。
参考来源
- Mirza, M. and Osindero, S. (2014). Conditional Generative Adversarial Nets. arXiv:1411.1784.
- Isola, P. et al. (2016). Image-to-Image Translation with Conditional Adversarial Networks. arXiv:1611.07004.
- Zhu, J.-Y. et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. arXiv:1703.10593.
- Ledig, C. et al. (2016). Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. arXiv:1609.04802.