GESCO
论文信息
- 标题:Generative Semantic Communication: Diffusion Models Beyond Bit Recovery
- 作者:Eleonora Grassucci, Sergio Barbarossa, Danilo Comminiello(罗马大学 Sapienza)
- 会议:ICASSP 2023
- arXiv:2306.04321
- 代码:ispamm/GESCO
传统图像传输追求的是什么?像素级精确恢复 —— 用 PSNR、SSIM 这些指标衡量重建图像与原始图像的差距。JPEG/JPEG2000 这类编码方案在设计时核心目标就是让接收端「看不出差别」。
但这个思路在真实通信场景中遇到了瓶颈:带宽永远不够用,信道噪声永远存在,而很多应用场景(自动驾驶、监控分析、远程医疗)其实根本不需要精确还原每一个像素——它们只需要知道「目标在哪里、是什么、深度是多少」。
语义通信(Semantic Communication)范式应运而生:发送端不再传输原始像素,而是提取图像的语义信息(语义标签图),接收端用生成模型「想象」出符合语义的图像。
这条技术路径的关键里程碑是 SDM(Semantic Image Synthesis, Wang et al., 2022)—— 首个基于 DDPM 的语义图像合成框架。SDM 证明了:给定干净的语义标签图,扩散模型可以生成高质量图像。但 SDM 有一个致命假设:输入语义图是干净的。
论文做了一个关键实验:将语义图用 AWGN 信道干扰(PSNR = 10 dB,相当于极强噪声),然后用已有 SIS 方法重建。结果触目惊心:
| 方法 | mIoU ↑ | LPIPS ↓ | FID×10 ↓ | 视觉质量 |
|---|---|---|---|---|
| Full image (JPEG) | 0.331 | 0.687 | 40.56 | 有噪声但可识别 |
| SPADE | — | — | — | 纯噪声 |
| CC-FPSE | — | — | — | 纯噪声 |
| SDM | — | — | — | 纯噪声 |
所有基于干净语义图的 SIS 方法,在 PSNR=10dB 下输出全是雪花/噪声。这意味着如果直接把 SDM 用于语义通信,一旦信道条件变差(现实中这是常态),系统立即失效。
为什么会这样?因为这些方法训练时从未见过「损坏的语义图」——它们在干净输入上学会了精妙的条件调制机制,但这个机制完全建立在输入可信的前提上。当语义标签被噪声侵蚀,SPADE 的归一化层会把噪声放大,扩散模型的条件注入机制将错误信息传播到每个生成步骤,最终输出不可控的噪声图像。
关键观察
现有 SIS 方法的失败不是因为它们「不够强」,而是因为它们从未被训练处理损坏的语义输入。这是一个任务适配问题,不是能力问题。
GESCO 的核心 insight 简单而有力:
「既然语义图已经被严重破坏,为什么不直接让生成模型学会从损坏的语义图中重建高质量图像?」
具体做法:在训练时,向语义图注入随机噪声(70% 的 batches),让扩散模型学会对噪声不敏感的语义表示。这本质上是一种数据增强(data augmentation)策略,但应用在条件生成模型的训练阶段,而非推理阶段。
3.1 Pipeline 总览
完整的数据流分发送端和接收端两部分:
发送端:
- 原始图像经过预训练语义分割模型(DRN-D-105 / MaskFormer),提取语义标签图
- 语义图进行 one-hot 编码,然后用 BPG 压缩器做额外压缩
- 压缩后的语义码流通过 AWGN 信道传输(这里引入信道噪声)
接收端:
- BPG 解压,得到带噪语义图 $\tilde{\mathbf{s}}$
- 轻量级快速去噪预处理,恢复语义结构
- 噪声鲁棒扩散模型以去噪后的语义图为条件,执行 DDPM 逆向过程,生成重建图像 $\hat{\mathbf{x}}$
3.2 发送端:语义编码
GESCO 使用两种标准数据集验证:
| 数据集 | 图像尺寸 | 语义类别数 | 典型类别 |
|---|---|---|---|
| Cityscapes | 256 × 512 | 35 | 道路、汽车、行人、建筑、植被 |
| COCO-Stuff | 256 × 256 | 183 | 人、动物、日常物品、背景材质 |
语义标签图的信息量远低于原始 RGB 像素:35-183 类的 one-hot 标签相比 256×512×3 的像素值,压缩效率大幅提升。Cityscapes 的语义图用 BPG 压缩后码率约 0.2 bpp,而原始 JPEG 压缩到同等视觉质量需要约 1.5 bpp。
3.3 接收端:噪声鲁棒扩散模型
这是 GESCO 的核心创新。架构基于 SDM(U-Net + SPADE 条件调制),但训练策略完全不同:
噪声注入训练
训练时,对语义条件注入加性高斯噪声:
$\mathbf{n} \sim \mathcal{N}(0, \sigma^2 \mathbf{I})$
噪声水平从 PSNR = {30, 25, 20, 15, 10, 1} dB 中均匀采样。
训练 batches 分配:30% 无噪声 + 70% 有噪声。
为什么 70% 有噪声?因为真实通信场景中噪声是常态而非例外。模型需要学会在各种噪声水平下保持语义一致性。
3.4 数学基础
扩散模型前向过程(加噪阶段)遵循:
其中 $\beta_t$ 是 schedule 参数,$t = 1, \ldots, T$。前向过程将图像逐渐变成纯噪声。
逆向过程(生成阶段)由参数化网络 $\epsilon_\theta$ 预测噪声:
其中 $\tilde{\mathbf{s}} = \mathbf{s} + \mathbf{n}$ 是带噪语义条件。
训练目标(噪声鲁棒版本的 DDPM 损失):
核心区别:网络输入的语义条件是 $\mathbf{s} + \mathbf{n}$ 而不是 $\mathbf{s}$。这个看似微小的变化实际上彻底改变了模型的行为——它被迫学习噪声不敏感的语义表示。
总损失函数加入了语义一致性正则:
这个正则项确保生成图像的语义分割结果与原始语义图保持一致,防止「生成看起来真实但语义错误」的幻觉。
3.5 生成策略
GESCO 使用 classifier-free guidance 提升条件一致性:
其中 $s$ 是 guidance scale。Cityscapes 用 $s=2.0$,COCO-Stuff 用 $s=2.5$。无条件输入(空标签)以 15% 概率随机替换,训练时采用。
4.1 噪声鲁棒性(核心结果)
在 PSNR = 10 dB(严重噪声)下,完整对比结果:
| 方法 | mIoU ↑ | LPIPS ↓ | FID×10 ↓ |
|---|---|---|---|
| Full image (JPEG) | 0.331 | 0.687 | 40.56 |
| SPADE | 完全失败(纯噪声输出) | ||
| CC-FPSE | 完全失败(纯噪声输出) | ||
| SDM | 完全失败(纯噪声输出) | ||
| GESCO | 0.365 | 0.683 | 36.66 |
GESCO 不仅没有崩溃,还在所有指标上超过直接传输压缩图像的 baseline。这说明 语义表示的信息效率远高于像素表示——即使语义图被严重破坏,其携带的语义信息仍然足以指导高质量图像生成。
4.2 下游任务性能
语义通信的最终目标不是「图像好看」,而是「下游任务能用」。论文在目标检测和深度估计两个任务上验证:
| 方法 | 目标检测 mAP ↑ | 目标检测 mAP50 ↑ | 深度估计 RMSE ↓ |
|---|---|---|---|
| Semantic Map only(纯语义图) | — | — | 208.984 |
| ControlNet | 0.018 | 0.061 | 199.211 |
| SMIS | 0.230 | 0.451 | 44.102 |
| GESCO | 0.390 | 0.666 | 14.530 |
GESCO 在目标检测上的 mAP50 达到 0.666,比 SMIS(0.451)高出 47.7%,比 ControlNet(0.061)高出 25 倍。深度估计 RMSE 仅为 14.530,相比纯语义图的 208.984 降低了 93%。
这些数字说明:GESCO 生成的图像在下游任务视角下,与原始图像几乎等效。这才是语义通信真正的价值所在。
4.3 与端到端 JSCC 的对比
与 Deep JSCC(DJSCC, Bourtouelis 2020)这类端到端方法相比,GESCO 在极低 SNR(10 dB 以下)时优势明显。DJSCC 追求像素精确恢复,在高噪声下被迫用大量带宽传输像素级细节;GESCO 只传输语义标签,信息量本来就少,即使被噪声侵蚀也能保留核心语义。
关键实验发现
当 SNR ≥ 25 dB 时,GESCO 的下游任务性能与端到端 JSCC 方法相近,但所需传输信息量减少约 7 倍。这说明语义传输策略在高带宽场景下也有优势——节省的带宽可用于其他信道复用。
4.4 关键训练配置
| 参数 | Cityscapes | COCO-Stuff |
|---|---|---|
| 图像尺寸 | 256 × 512 | 256 × 256 |
| 语义类别数 | 35 | 183 |
| Guidance scale | 2.0 | 2.5 |
| 学习率 | 0.0001 | 0.0001 |
| Batch size | 4 | 4 |
| 扩散步数 T | 1000 | 1000 |
| 优化器 | AdamW | AdamW |
| EMA decay | 0.9999 | 0.9999 |
| 噪声训练比例 | 70% | 70% |
理解 GESCO 需要放在更宏大的技术背景下:从经典信息论到深度语义通信。
5.1 理论基础:Shannon 的分离原理
Shannon(1948)在《A Mathematical Theory of Communication》中证明了:信源编码和信道编码可以独立设计,在无限码长下分别达到最优。这个「分离原理」统治了通信理论 70 年。
但分离原理有两个隐含假设:(1) 发送端和接收端共享完整的先验知识;(2) 任务目标是精确恢复原始消息。语义通信打破的是第二个假设——如果任务只需要语义信息,为什么要精确恢复像素?
5.2 JSCC 的崛起
Deep JSCC(Bourtouelis, 2020)是端到端联合信源信道编码的开创性工作。它用一个神经网络直接学习从原始图像到信道符号的映射,绕过了传统信源/信道编码的分离设计。
Deep JSCC 的问题是:它仍然在像素级别做恢复。当信道条件变差(如 SNR 低于 5 dB),模型会输出模糊的图像——因为它试图「猜测」每个像素该是什么。
5.3 生成式语义通信
GESCO 的技术路径可以被总结为:
这个组合产生了一个重要性质:GESCO 的重建质量不取决于像素恢复的精确度,而取决于语义信息的保留程度。即使语义图被噪声破坏,只要关键的语义结构(目标类别、空间布局)得以保留,生成模型就能「脑补」出高质量图像。
5.4 后续发展
GESCO 之后,语义通信+扩散模型方向出现了多个变体:
- Q-GESCO(2025):量化版本,支持资源受限的边缘设备
- DiSC-Med(2025):医学图像传输的扩散语义通信,在 CT/MRI 图像上验证
- SIC(Stable Cascade):将稳定扩散级联架构应用于语义通信
- SwinJSCC:将 Swin Transformer 集成到 JSCC 框架,提升对复杂场景的建模能力
关键技术继承关系
GESCO 直接继承了 SDM(2022)的 DDPM + SPADE 架构,但训练目标完全不同。SDM 的目标是「给定干净语义图生成最佳图像」,GESCO 的目标是「给定损坏语义图生成最接近真实的图像」。这个目标转换是整篇论文的核心贡献。
6.1 已承认的局限
- 语义分割模型的准确性是瓶颈:发送端的语义分割质量直接决定了接收端的上限。如果分割模型把「行人」误判为「车辆」,生成模型无论如何也重建不出正确的图像。
- 语义类别有限:35-183 类可能无法覆盖所有场景细节。某些细粒度纹理(特定植物种类、微妙材质差异)在语义图上被合并为同一类别,生成模型也无法区分。
- 不适合需要像素精确的场景:医学影像分析(需要精确的灰度值)、法医鉴定(需要精确的指纹细节)、数字艺术(需要精确的颜色信息)——这些场景下语义通信范式天然不适用。
- 推理延迟:T=1000 步 DDPM 采样较慢,实时应用(如自动驾驶)需要 DDIM 或更快的采样器。
6.2 未解决的开放问题
- 自适应语义粒度:能否根据信道条件动态调整语义图的粒度?带宽充足时用细粒度分割(200+ 类),带宽紧张时用粗粒度(20 类)?
- 语义图的端到端学习:当前语义分割是预训练模型,不是端到端优化的。是否有方法让分割模型也学会「抗噪声」表示?
- 多模态语义通信:当发送端有图像+文本+雷达等多模态信息时,语义编码如何融合?这在自动驾驶场景尤其重要。
| 问题 | 答案 |
|---|---|
| GESCO 解决的核心问题 | 让扩散模型能在信道噪声干扰下,从损坏的语义图中重建高质量图像 |
| 核心创新 | 训练时对语义图注入随机噪声(70% batches),让模型学会噪声不敏感的语义表示 |
| 关键数值 @ PSNR=10dB | mIoU=0.365, LPIPS=0.683, FID×10=36.66, mAP50=0.666 |
| 技术继承 | SDM(DDPM+SPADE)+ 语义通信范式 + 噪声注入训练 |
| 适用场景 | 车联网、监控分析、带宽受限通信、远程医疗影像 |
| 不适用的场景 | 需要像素精确恢复(如法医鉴定)、实时性要求极高(需等 T=1000 步) |