ESC
输入关键词搜索文章
目录

GESCO

Generative Semantic Communication · ICASSP 2023
扩散模型 + 语义通信 = 极端噪声下的图像重建
0.365mIoU @ PSNR=10dB
36.66FID×10 @ PSNR=10dB
0.666mAP50 @ PSNR=10dB
70%噪声训练比例

论文信息

  • 标题:Generative Semantic Communication: Diffusion Models Beyond Bit Recovery
  • 作者:Eleonora Grassucci, Sergio Barbarossa, Danilo Comminiello(罗马大学 Sapienza)
  • 会议:ICASSP 2023
  • arXiv2306.04321
  • 代码ispamm/GESCO
第一章 · 范式转移
从比特精确到语义保留:通信目标的根本转变

传统图像传输追求的是什么?像素级精确恢复 —— 用 PSNR、SSIM 这些指标衡量重建图像与原始图像的差距。JPEG/JPEG2000 这类编码方案在设计时核心目标就是让接收端「看不出差别」。

但这个思路在真实通信场景中遇到了瓶颈:带宽永远不够用,信道噪声永远存在,而很多应用场景(自动驾驶、监控分析、远程医疗)其实根本不需要精确还原每一个像素——它们只需要知道「目标在哪里、是什么、深度是多少」。

语义通信(Semantic Communication)范式应运而生:发送端不再传输原始像素,而是提取图像的语义信息(语义标签图),接收端用生成模型「想象」出符合语义的图像。

语义通信 vs 传统比特传输
图 1:语义通信的核心思想——从像素传输转向语义传输(来源:GESCO 论文 Fig.3 编辑版)

这条技术路径的关键里程碑是 SDM(Semantic Image Synthesis, Wang et al., 2022)—— 首个基于 DDPM 的语义图像合成框架。SDM 证明了:给定干净的语义标签图,扩散模型可以生成高质量图像。但 SDM 有一个致命假设:输入语义图是干净的

核心矛盾:语义通信场景下,语义图要经过压缩和信道传输,必然会引入噪声。所有已有的 SIS 方法在噪声环境下完全失效。
第二章 · 挑战
为什么现有方法在噪声下彻底崩溃?

论文做了一个关键实验:将语义图用 AWGN 信道干扰(PSNR = 10 dB,相当于极强噪声),然后用已有 SIS 方法重建。结果触目惊心:

方法 mIoU ↑ LPIPS ↓ FID×10 ↓ 视觉质量
Full image (JPEG) 0.331 0.687 40.56 有噪声但可识别
SPADE 纯噪声
CC-FPSE 纯噪声
SDM 纯噪声

所有基于干净语义图的 SIS 方法,在 PSNR=10dB 下输出全是雪花/噪声。这意味着如果直接把 SDM 用于语义通信,一旦信道条件变差(现实中这是常态),系统立即失效。

为什么会这样?因为这些方法训练时从未见过「损坏的语义图」——它们在干净输入上学会了精妙的条件调制机制,但这个机制完全建立在输入可信的前提上。当语义标签被噪声侵蚀,SPADE 的归一化层会把噪声放大,扩散模型的条件注入机制将错误信息传播到每个生成步骤,最终输出不可控的噪声图像。

关键观察

现有 SIS 方法的失败不是因为它们「不够强」,而是因为它们从未被训练处理损坏的语义输入。这是一个任务适配问题,不是能力问题。

第三章 · 方法
GESCO 核心设计:噪声鲁棒扩散模型

GESCO 的核心 insight 简单而有力:

「既然语义图已经被严重破坏,为什么不直接让生成模型学会从损坏的语义图中重建高质量图像?」

— GESCO 论文核心论点

具体做法:在训练时,向语义图注入随机噪声(70% 的 batches),让扩散模型学会对噪声不敏感的语义表示。这本质上是一种数据增强(data augmentation)策略,但应用在条件生成模型的训练阶段,而非推理阶段。

3.1 Pipeline 总览

完整的数据流分发送端和接收端两部分:

GESCO 系统架构图
图 2:GESCO 端到端语义通信 Pipeline(来源:GESCO 论文 Fig.1)

发送端

  1. 原始图像经过预训练语义分割模型(DRN-D-105 / MaskFormer),提取语义标签图
  2. 语义图进行 one-hot 编码,然后用 BPG 压缩器做额外压缩
  3. 压缩后的语义码流通过 AWGN 信道传输(这里引入信道噪声)

接收端

  1. BPG 解压,得到带噪语义图 $\tilde{\mathbf{s}}$
  2. 轻量级快速去噪预处理,恢复语义结构
  3. 噪声鲁棒扩散模型以去噪后的语义图为条件,执行 DDPM 逆向过程,生成重建图像 $\hat{\mathbf{x}}$

3.2 发送端:语义编码

GESCO 使用两种标准数据集验证:

数据集 图像尺寸 语义类别数 典型类别
Cityscapes 256 × 512 35 道路、汽车、行人、建筑、植被
COCO-Stuff 256 × 256 183 人、动物、日常物品、背景材质

语义标签图的信息量远低于原始 RGB 像素:35-183 类的 one-hot 标签相比 256×512×3 的像素值,压缩效率大幅提升。Cityscapes 的语义图用 BPG 压缩后码率约 0.2 bpp,而原始 JPEG 压缩到同等视觉质量需要约 1.5 bpp。

3.3 接收端:噪声鲁棒扩散模型

这是 GESCO 的核心创新。架构基于 SDM(U-Net + SPADE 条件调制),但训练策略完全不同:

噪声注入训练

训练时,对语义条件注入加性高斯噪声:

$\mathbf{n} \sim \mathcal{N}(0, \sigma^2 \mathbf{I})$

噪声水平从 PSNR = {30, 25, 20, 15, 10, 1} dB 中均匀采样。

训练 batches 分配:30% 无噪声 + 70% 有噪声。

为什么 70% 有噪声?因为真实通信场景中噪声是常态而非例外。模型需要学会在各种噪声水平下保持语义一致性。

3.4 数学基础

扩散模型前向过程(加噪阶段)遵循:

$$q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}\bigl(\mathbf{x}_t; \sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}\bigr)$$

其中 $\beta_t$ 是 schedule 参数,$t = 1, \ldots, T$。前向过程将图像逐渐变成纯噪声。

逆向过程(生成阶段)由参数化网络 $\epsilon_\theta$ 预测噪声:

$$p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t, \tilde{\mathbf{s}}) = \mathcal{N}\bigl(\mathbf{x}_{t-1}; \mu_\theta(\mathbf{x}_t, \tilde{\mathbf{s}}, t), \sigma_t^2 \mathbf{I}\bigr)$$

其中 $\tilde{\mathbf{s}} = \mathbf{s} + \mathbf{n}$ 是带噪语义条件。

训练目标(噪声鲁棒版本的 DDPM 损失):

$$L = \mathbb{E}_{\mathbf{x}, \mathbf{s}, t, \epsilon, \mathbf{n}} \left[ \|\epsilon - \epsilon_\theta(\mathbf{x}_t, \mathbf{s} + \mathbf{n}, t) \|^2 \right]$$

核心区别:网络输入的语义条件是 $\mathbf{s} + \mathbf{n}$ 而不是 $\mathbf{s}$。这个看似微小的变化实际上彻底改变了模型的行为——它被迫学习噪声不敏感的语义表示。

总损失函数加入了语义一致性正则:

$$L_{total} = L_{recon} + \lambda \cdot L_{semantic}, \quad \lambda = 0.001$$

这个正则项确保生成图像的语义分割结果与原始语义图保持一致,防止「生成看起来真实但语义错误」的幻觉。

3.5 生成策略

GESCO 使用 classifier-free guidance 提升条件一致性:

$$\hat{\epsilon} = (1+s)\epsilon_\theta(\mathbf{x}_t, \tilde{\mathbf{s}}, t) - s\epsilon_\theta(\mathbf{x}_t, \emptyset, t)$$

其中 $s$ 是 guidance scale。Cityscapes 用 $s=2.0$,COCO-Stuff 用 $s=2.5$。无条件输入(空标签)以 15% 概率随机替换,训练时采用。

GESCO 训练过程图示
图 3:噪声注入训练策略示意(来源:GESCO 论文 Fig.2)
第四章 · 实验
极端噪声下的鲁棒性验证

4.1 噪声鲁棒性(核心结果)

在 PSNR = 10 dB(严重噪声)下,完整对比结果:

方法 mIoU ↑ LPIPS ↓ FID×10 ↓
Full image (JPEG) 0.331 0.687 40.56
SPADE 完全失败(纯噪声输出)
CC-FPSE 完全失败(纯噪声输出)
SDM 完全失败(纯噪声输出)
GESCO 0.365 0.683 36.66

GESCO 不仅没有崩溃,还在所有指标上超过直接传输压缩图像的 baseline。这说明 语义表示的信息效率远高于像素表示——即使语义图被严重破坏,其携带的语义信息仍然足以指导高质量图像生成。

各方法在 PSNR=10dB 下的视觉对比
图 4:PSNR=10dB 下的视觉对比——GESCO 保持语义结构,竞品全部崩溃(来源:GESCO 论文 Fig.4)

4.2 下游任务性能

语义通信的最终目标不是「图像好看」,而是「下游任务能用」。论文在目标检测和深度估计两个任务上验证:

方法 目标检测 mAP ↑ 目标检测 mAP50 ↑ 深度估计 RMSE ↓
Semantic Map only(纯语义图) 208.984
ControlNet 0.018 0.061 199.211
SMIS 0.230 0.451 44.102
GESCO 0.390 0.666 14.530

GESCO 在目标检测上的 mAP50 达到 0.666,比 SMIS(0.451)高出 47.7%,比 ControlNet(0.061)高出 25 倍。深度估计 RMSE 仅为 14.530,相比纯语义图的 208.984 降低了 93%。

这些数字说明:GESCO 生成的图像在下游任务视角下,与原始图像几乎等效。这才是语义通信真正的价值所在。

4.3 与端到端 JSCC 的对比

GESCO 与 DJSCC/SwinJSCC 对比
图 5:GESCO 与端到端 JSCC 方法(DJSCC、SwinJSCC)在不同信道 SNR 下的性能对比(来源:GESCO 论文 Fig.11)

与 Deep JSCC(DJSCC, Bourtouelis 2020)这类端到端方法相比,GESCO 在极低 SNR(10 dB 以下)时优势明显。DJSCC 追求像素精确恢复,在高噪声下被迫用大量带宽传输像素级细节;GESCO 只传输语义标签,信息量本来就少,即使被噪声侵蚀也能保留核心语义。

关键实验发现

当 SNR ≥ 25 dB 时,GESCO 的下游任务性能与端到端 JSCC 方法相近,但所需传输信息量减少约 7 倍。这说明语义传输策略在高带宽场景下也有优势——节省的带宽可用于其他信道复用。

4.4 关键训练配置

参数 Cityscapes COCO-Stuff
图像尺寸256 × 512256 × 256
语义类别数35183
Guidance scale2.02.5
学习率0.00010.0001
Batch size44
扩散步数 T10001000
优化器AdamWAdamW
EMA decay0.99990.9999
噪声训练比例70%70%
不同噪声水平下的性能曲线
图 6:GESCO 在不同信道 SNR 下的 mIoU 性能曲线(来源:GESCO 论文 Fig.7)
第五章 · 脉络
语义通信的技术演进:从 Shannon 到 Diffusion

理解 GESCO 需要放在更宏大的技术背景下:从经典信息论到深度语义通信。

5.1 理论基础:Shannon 的分离原理

Shannon(1948)在《A Mathematical Theory of Communication》中证明了:信源编码和信道编码可以独立设计,在无限码长下分别达到最优。这个「分离原理」统治了通信理论 70 年。

但分离原理有两个隐含假设:(1) 发送端和接收端共享完整的先验知识;(2) 任务目标是精确恢复原始消息。语义通信打破的是第二个假设——如果任务只需要语义信息,为什么要精确恢复像素?

5.2 JSCC 的崛起

Deep JSCC(Bourtouelis, 2020)是端到端联合信源信道编码的开创性工作。它用一个神经网络直接学习从原始图像到信道符号的映射,绕过了传统信源/信道编码的分离设计。

Deep JSCC 的问题是:它仍然在像素级别做恢复。当信道条件变差(如 SNR 低于 5 dB),模型会输出模糊的图像——因为它试图「猜测」每个像素该是什么。

5.3 生成式语义通信

GESCO 的技术路径可以被总结为:

语义优先 + 生成重建 + 噪声鲁棒训练

这个组合产生了一个重要性质:GESCO 的重建质量不取决于像素恢复的精确度,而取决于语义信息的保留程度。即使语义图被噪声破坏,只要关键的语义结构(目标类别、空间布局)得以保留,生成模型就能「脑补」出高质量图像。

语义通信技术脉络图
图 7:语义通信从 Shannon 到 Diffusion 的演进路径(来源:GESCO 论文 Fig.9)

5.4 后续发展

GESCO 之后,语义通信+扩散模型方向出现了多个变体:

  • Q-GESCO(2025):量化版本,支持资源受限的边缘设备
  • DiSC-Med(2025):医学图像传输的扩散语义通信,在 CT/MRI 图像上验证
  • SIC(Stable Cascade):将稳定扩散级联架构应用于语义通信
  • SwinJSCC:将 Swin Transformer 集成到 JSCC 框架,提升对复杂场景的建模能力

关键技术继承关系

GESCO 直接继承了 SDM(2022)的 DDPM + SPADE 架构,但训练目标完全不同。SDM 的目标是「给定干净语义图生成最佳图像」,GESCO 的目标是「给定损坏语义图生成最接近真实的图像」。这个目标转换是整篇论文的核心贡献。

第六章 · 反思
GESCO 的局限与未来方向

6.1 已承认的局限

  1. 语义分割模型的准确性是瓶颈:发送端的语义分割质量直接决定了接收端的上限。如果分割模型把「行人」误判为「车辆」,生成模型无论如何也重建不出正确的图像。
  2. 语义类别有限:35-183 类可能无法覆盖所有场景细节。某些细粒度纹理(特定植物种类、微妙材质差异)在语义图上被合并为同一类别,生成模型也无法区分。
  3. 不适合需要像素精确的场景:医学影像分析(需要精确的灰度值)、法医鉴定(需要精确的指纹细节)、数字艺术(需要精确的颜色信息)——这些场景下语义通信范式天然不适用。
  4. 推理延迟:T=1000 步 DDPM 采样较慢,实时应用(如自动驾驶)需要 DDIM 或更快的采样器。

6.2 未解决的开放问题

  • 自适应语义粒度:能否根据信道条件动态调整语义图的粒度?带宽充足时用细粒度分割(200+ 类),带宽紧张时用粗粒度(20 类)?
  • 语义图的端到端学习:当前语义分割是预训练模型,不是端到端优化的。是否有方法让分割模型也学会「抗噪声」表示?
  • 多模态语义通信:当发送端有图像+文本+雷达等多模态信息时,语义编码如何融合?这在自动驾驶场景尤其重要。
更多实验结果
图 8:GESCO 在更丰富场景下的生成结果(来源:GESCO 论文 Fig.10)
核心要点速查
问题 答案
GESCO 解决的核心问题 让扩散模型能在信道噪声干扰下,从损坏的语义图中重建高质量图像
核心创新 训练时对语义图注入随机噪声(70% batches),让模型学会噪声不敏感的语义表示
关键数值 @ PSNR=10dB mIoU=0.365, LPIPS=0.683, FID×10=36.66, mAP50=0.666
技术继承 SDM(DDPM+SPADE)+ 语义通信范式 + 噪声注入训练
适用场景 车联网、监控分析、带宽受限通信、远程医疗影像
不适用的场景 需要像素精确恢复(如法医鉴定)、实时性要求极高(需等 T=1000 步)