ESC
输入关键词搜索文章
目录

条件 GAN 与应用

从“生成任意样本”到“按条件完成任务”
GAN 真正进入视觉应用,是从条件化开始的
4代表应用
paired→unpaired数据形态
SRGAN 超分辨率
第一章
条件化:让 GAN 从“会生成”变成“按要求生成”

原始 GAN 从噪声 $z$ 生成样本,但它默认不知道用户想要什么。Conditional GAN 的关键改动很小:把条件 $y$ 同时输入生成器和判别器,让模型学习 $p(x|y)$ 而不是无条件分布 $p(x)$。Mirza 和 Osindero 在 2014 年展示了用类别标签控制 MNIST 数字生成,也说明条件可以是类别、属性或其他辅助信息 #Mirza and Osindero, 2014

cGAN 目标

$$\min_G \max_D \; \mathbb{E}_{x\sim p_{data}}[\log D(x|y)] + \mathbb{E}_{z\sim p_z}[\log(1-D(G(z|y)|y))].$$

条件 $y$ 的作用不是附加说明,而是把生成任务变成一个受控映射。

这个小改动打开了 GAN 的应用空间。条件可以是类别标签,也可以是一张图、边缘图、语义分割图、低分辨率图像、医学影像模态或另一个视觉域。于是 GAN 不再只是“从随机噪声画图”,而变成“输入一个条件,输出满足这个条件的图像”。

GAN application map
图 1:条件化让 GAN 扩散到图像翻译、超分辨率、高保真合成等任务。
第二章
pix2pix:把图像到图像翻译统一成条件生成

pix2pix 的贡献是把许多视觉问题统一成 image-to-image translation:输入图像 $x$,输出目标图像 $y$。Isola 等人展示了语义标签到街景、边缘到物体、灰度到彩色、草图到照片等任务,并强调不必为每个任务手写完全不同的损失函数,判别器可以学习任务相关的真实感损失 #Isola et al., 2016

pix2pix 的训练依赖成对数据,也就是每个输入都要有对应目标。这个约束在工程上很重要:如果你有清晰的 paired dataset,pix2pix 的监督信号强,训练目标明确;但如果只拥有两个域的非配对图片,例如一堆马和一堆斑马,它就不再直接适用。

任务输入条件输出关键约束
语义标签→街景分割 mask真实街景成对标注数据
边缘→物体边缘图照片形状约束强
黑白→彩色灰度图彩色图颜色存在多解
第三章
CycleGAN:没有成对数据,也要学会跨域翻译

CycleGAN 面对的是更常见、更困难的设置:只有域 $X$ 和域 $Y$ 的图片集合,没有一一对应样本。Zhu 等人引入两个映射 $G:X\rightarrow Y$$F:Y\rightarrow X$,再加入 cycle consistency loss,要求 $F(G(x))\approx x$$G(F(y))\approx y$。这给欠约束的翻译问题加上了“翻过去再翻回来应该不变”的结构先验 #Zhu et al., 2017

循环一致性损失

$$\mathcal{L}_{cyc}(G,F)=\mathbb{E}_{x\sim p_X}[\lVert F(G(x))-x\rVert_1]+\mathbb{E}_{y\sim p_Y}[\lVert G(F(y))-y\rVert_1].$$

它不保证语义完全正确,但显著减少了任意映射的自由度。

CycleGAN 的影响在于,它降低了图像翻译任务的数据门槛。风格迁移、季节转换、马与斑马、照片与绘画等任务都可以在没有配对样本时训练。但它也有局限:循环一致性可能保留低层结构,却不能保证高层语义完全正确;在医学、遥感等严肃场景中,不能把 CycleGAN 输出直接当作事实。

第四章
SRGAN:GAN 为什么适合感知质量任务

超分辨率展示了 GAN 的另一个价值:像素误差最小不等于人眼看起来真实。Ledig 等人指出,单纯优化 MSE 往往得到 PSNR 高但纹理模糊的图像;SRGAN 使用 adversarial loss 和基于 VGG feature space 的 content loss,让模型更关注自然图像纹理和感知质量 #Ledig et al., 2016

SRGAN 声称是第一个能够在 $4\times$ 上采样中生成 photo-realistic natural images 的框架,并通过 MOS 测试显示其感知质量明显优于传统方法 #Ledig et al., 2016。它影响了后来大量“像素指标不够,人眼感知更重要”的任务,包括图像增强、压缩后重建、视频超分辨率和生成式修复。

应用判断:如果任务目标是结构准确,像素/语义监督很重要;如果目标是高频纹理自然,adversarial loss 往往能补足 MSE 或 L1 的模糊倾向。
结语
条件 GAN 的本质:把判别器变成任务损失学习器

从 cGAN 到 pix2pix、CycleGAN、SRGAN,GAN 的角色发生了变化:它不再只是一个生成模型,而是一个可学习的任务损失。pix2pix 让判别器判断“输出是否像给定输入对应的真实目标”,CycleGAN 让判别器配合循环约束完成无配对域迁移,SRGAN 则让判别器补足像素损失在感知质量上的缺陷。这个思想后来继续影响了图像增强、生成式压缩和视觉内容编辑。

参考来源

  • Mirza, M. and Osindero, S. (2014). Conditional Generative Adversarial Nets. arXiv:1411.1784.
  • Isola, P. et al. (2016). Image-to-Image Translation with Conditional Adversarial Networks. arXiv:1611.07004.
  • Zhu, J.-Y. et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. arXiv:1703.10593.
  • Ledig, C. et al. (2016). Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. arXiv:1609.04802.