条件 GAN 与应用：从 cGAN 到 pix2pix、CycleGAN 与 SRGAN

2026/06/02 17:10:45

AIGAN·6 min read

GAN cGAN pix2pix CycleGAN SRGAN image-to-image-translation

第一章

条件化：让 GAN 从“会生成”变成“按要求生成”

原始 GAN 从噪声 $$z$$ 生成样本，但它默认不知道用户想要什么。Conditional GAN 的关键改动很小：把条件 $$y$$ 同时输入生成器和判别器，让模型学习 $$p(x|y)$$ 而不是无条件分布 $$p(x)$$ 。Mirza 和 Osindero 在 2014 年展示了用类别标签控制 MNIST 数字生成，也说明条件可以是类别、属性或其他辅助信息 #Mirza and Osindero, 2014。

cGAN 目标

\min_G \max_D \; \mathbb{E}_{x\sim p_{data}}[\log D(x|y)] + \mathbb{E}_{z\sim p_z}[\log(1-D(G(z|y)|y))].

条件 $$y$$ 的作用不是附加说明，而是把生成任务变成一个受控映射。

这个小改动打开了 GAN 的应用空间。条件可以是类别标签，也可以是一张图、边缘图、语义分割图、低分辨率图像、医学影像模态或另一个视觉域。于是 GAN 不再只是“从随机噪声画图”，而变成“输入一个条件，输出满足这个条件的图像”。

图 1：条件化让 GAN 扩散到图像翻译、超分辨率、高保真合成等任务。

第二章

pix2pix：把图像到图像翻译统一成条件生成

pix2pix 的贡献是把许多视觉问题统一成 image-to-image translation：输入图像 $$x$$ ，输出目标图像 $$y$$ 。Isola 等人展示了语义标签到街景、边缘到物体、灰度到彩色、草图到照片等任务，并强调不必为每个任务手写完全不同的损失函数，判别器可以学习任务相关的真实感损失 #Isola et al., 2016。

pix2pix 的训练依赖成对数据，也就是每个输入都要有对应目标。这个约束在工程上很重要：如果你有清晰的 paired dataset，pix2pix 的监督信号强，训练目标明确；但如果只拥有两个域的非配对图片，例如一堆马和一堆斑马，它就不再直接适用。

任务	输入条件	输出	关键约束
语义标签→街景	分割 mask	真实街景	成对标注数据
边缘→物体	边缘图	照片	形状约束强
黑白→彩色	灰度图	彩色图	颜色存在多解

第三章

CycleGAN：没有成对数据，也要学会跨域翻译

CycleGAN 面对的是更常见、更困难的设置：只有域 $$X$$ 和域 $$Y$$ 的图片集合，没有一一对应样本。Zhu 等人引入两个映射 $G:X\rightarrow Y$ 与 $F:Y\rightarrow X$ ，再加入 cycle consistency loss，要求 $F(G(x))\approx x$ 、 $G(F(y))\approx y$ 。这给欠约束的翻译问题加上了“翻过去再翻回来应该不变”的结构先验 #Zhu et al., 2017。

循环一致性损失

\mathcal{L}_{cyc}(G,F)=\mathbb{E}_{x\sim p_X}[\lVert F(G(x))-x\rVert_1]+\mathbb{E}_{y\sim p_Y}[\lVert G(F(y))-y\rVert_1].

它不保证语义完全正确，但显著减少了任意映射的自由度。

CycleGAN 的影响在于，它降低了图像翻译任务的数据门槛。风格迁移、季节转换、马与斑马、照片与绘画等任务都可以在没有配对样本时训练。但它也有局限：循环一致性可能保留低层结构，却不能保证高层语义完全正确；在医学、遥感等严肃场景中，不能把 CycleGAN 输出直接当作事实。

第四章

SRGAN：GAN 为什么适合感知质量任务

超分辨率展示了 GAN 的另一个价值：像素误差最小不等于人眼看起来真实。Ledig 等人指出，单纯优化 MSE 往往得到 PSNR 高但纹理模糊的图像；SRGAN 使用 adversarial loss 和基于 VGG feature space 的 content loss，让模型更关注自然图像纹理和感知质量 #Ledig et al., 2016。

SRGAN 声称是第一个能够在 $4\times$ 上采样中生成 photo-realistic natural images 的框架，并通过 MOS 测试显示其感知质量明显优于传统方法 #Ledig et al., 2016。它影响了后来大量“像素指标不够，人眼感知更重要”的任务，包括图像增强、压缩后重建、视频超分辨率和生成式修复。

应用判断：如果任务目标是结构准确，像素/语义监督很重要；如果目标是高频纹理自然，adversarial loss 往往能补足 MSE 或 L1 的模糊倾向。

结语

条件 GAN 的本质：把判别器变成任务损失学习器

从 cGAN 到 pix2pix、CycleGAN、SRGAN，GAN 的角色发生了变化：它不再只是一个生成模型，而是一个可学习的任务损失。pix2pix 让判别器判断“输出是否像给定输入对应的真实目标”，CycleGAN 让判别器配合循环约束完成无配对域迁移，SRGAN 则让判别器补足像素损失在感知质量上的缺陷。这个思想后来继续影响了图像增强、生成式压缩和视觉内容编辑。

参考来源

Mirza, M. and Osindero, S. (2014). Conditional Generative Adversarial Nets. arXiv:1411.1784.
Isola, P. et al. (2016). Image-to-Image Translation with Conditional Adversarial Networks. arXiv:1611.07004.
Zhu, J.-Y. et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. arXiv:1703.10593.
Ledig, C. et al. (2016). Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. arXiv:1609.04802.