图像压缩专题（五）：受干扰图像传输，从 DeepJSCC 到生成式语义通信

2026/05/28 13:25:52

引言 · Introduction

问题是什么？为什么重要？

在无线通信、工业检测、IoT 传感等实际场景中，图像数据必须在带宽受限且存在噪声、衰落、丢包的信道上传输。传统通信系统遵循 Shannon 分离定理：信源编码（压缩）与信道编码（纠错）独立设计。只要信源熵 $$H < C$$ （信道容量），分离设计渐近最优。

但现实是残酷的。在有限码长、低延迟、非 AWGN 信道下，分离设计显著次优，且存在致命的"悬崖效应"——一旦 SNR 低于阈值，重建质量断崖式下降。在低 SNR、高丢包率或资源极度受限的场景下（电缆缺陷扫描、无人机遥传、深海通信），这个问题尤为突出。

2018 年以来，联合信源信道编码 (JSCC) 重新进入研究视野。深度学习使端到端优化成为可能，而扩散模型的引入进一步颠覆了"恢复"的传统思路——接收端开始"生成"而非"重建"。

本综述按照技术范式的演进，将该领域划分为三个阶段：Deep JSCC 端到端联合编码（2018–2022）、Transformer + 信道自适应（2022–2023）、生成式语义通信（2023–至今）。我们将从动机、架构、实验、局限四个维度，对每个阶段的代表性工作进行教学式解读，并在最后给出跨论文的系统对比与开放问题。

背景 · Background

分离定理的裂缝

Shannon 分离定理与实际的差距

Shannon 1948 年的分离定理告诉我们：信源编码和信道编码可以独立设计，联合优化不会比分离设计更好。这个定理成立的条件是：无限码长、遍历信道、无延迟约束。在现实中，这三个条件无一满足。

分离设计的核心问题是"悬崖效应"（cliff effect）。传统系统设计一个目标 SNR，使用匹配的信道编码率。当实际 SNR 高于目标时，质量很好；但一旦 SNR 低于目标哪怕 1 dB，误码率急剧上升，重建质量从"可用"直接跌到"不可用"。这种不连续的性能退化在实时通信中是致命的。

JSCC 的历史脉络

联合信源信道编码并非新概念。1970–2000 年代就有大量理论工作，如 Bassgo、Farber 等人的模拟传输方案。但受限于优化工具，这些方法只能处理简单的信源和信道模型。

深度学习改变了一切。2018 年，Bourtsoulatze 等人首次提出用神经网络实现端到端 JSCC（即 DeepJSCC），将图像像素直接映射为复数信道符号。这个看似简单的想法打开了一个新的研究方向。

关键概念速查

概念	含义	与传统方案的关系
信道带宽比 (CBR) $\rho = k / (2 \times 3 \times H \times W)$	每个像素占用的信道符号数	$\rho$ 越小，压缩越激进
PSNR	峰值信噪比，衡量像素级重建质量	越高越好，但不反映感知质量
LPIPS	感知距离，衡量人眼感知相似度	越低越好，深度特征空间距离
FID	Fréchet Inception Distance，分布级质量	越低越好，衡量生成真实感
AWGN	加性白高斯噪声信道	最基本的信道模型
Rayleigh 衰落	多径传播导致的信道增益随机变化	更接近实际无线信道
JSCC 编码器/解码器	把图像直接映射到复数信道符号（编码器）或从接收符号重建图像（解码器）的神经网络	替代传统“压缩 + 纠错”两段式流程
CSI	Channel State Information，信道状态信息，主要包括 SNR $\gamma$ 和信道增益 $$h$$	告诉编解码器当前信道条件
ControlNet	给预训练扩散 UNet 增加可训练控制分支的架构，用额外条件控制生成	DiffJSCC 用它注入空间/文本/信道条件
中间引导 (Intermediate Guidance)	在扩散去噪过程中，把中间估计拉向初始重建，平衡真实感和保真度	用 $\lambda$ 参数控制强度

为什么 DeepJSCC 输出复数符号？无线通信的物理层传输单位是复数基带符号（I/Q 两路实信号的数学表示）。每个信道使用传一个复数

$y = a + jb$

，实部和虚部分别对应同相和正交分量。DeepJSCC 的编码器直接输出复数符号，是为了让神经网络的输出能直接对接无线信道模型

\hat{y} = hy + n

，避免额外的调制映射步骤。实际实现中，CNN 输出前后两半通道，前半解释为实部、后半解释为虚部。

阶段一 · Phase 1

Deep JSCC：端到端联合编码（2018–2022）

DeepJSCC → AIB-JSCC

从手工设计到端到端学习

传统 JSCC 采用小波变换 + 矢量量化 + UEP（不等错误保护），例如 Chatellier et al. (2007) 针对电离层信道的方案。但手工设计的特征难以适应复杂信道，也无法利用深度学习强大的表示能力。

DeepJSCC（Bourtsoulatze et al., 2018）开创了端到端深度 JSCC 范式。这个想法的核心直觉非常简洁：既然我们可以训练一个自编码器来压缩图像，为什么不把信道也"融"进这个自编码器呢？

典型系统由三部分组成：

f_\theta: \mathbb{R}^{H \times W \times 3} \to \mathbb{C}^{k} \quad \text{(编码器：图像 → 复数信道符号)}

\mathbf{y} = h \cdot \mathbf{x} + \mathbf{n}, \quad \mathbf{n} \sim \mathcal{CN}(0, \sigma^2 \mathbf{I}) \quad \text{(信道：加噪)}

g_\phi: \mathbb{C}^{k} \to \mathbb{R}^{H \times W \times 3} \quad \text{(解码器：信道符号 → 重建图像)}

整个系统通过最小化端到端重建误差来联合优化：

\mathcal{L} = \mathbb{E}_{\mathbf{x}, \text{SNR}} \left[ \| \mathbf{x} - \hat{\mathbf{x}} \|^2 \right]

关键洞察：DeepJSCC 的本质是将图像压缩和信道编码融合为一个统一的特征空间映射问题。网络自动学习"哪些信息值得传输"以及"如何传输才能抗噪声"——这是分离设计永远做不到的。

核心优势：平滑退化

DeepJSCC 最引人注目的性质是平滑退化。随着 SNR 下降，图像质量逐渐变差，但不会出现悬崖式的质量崩溃。在低 SNR（0–5 dB）下，DeepJSCC 显著优于 JPEG + LDPC 等传统方案，PSNR 高出 3–8 dB。

AIB-JSCC：信息瓶颈自适应码率

原始 DeepJSCC 的一个关键限制是：只优化重建失真，忽视传输速率的最小化。这导致传输的数据量可能远超理论最小值。Sun et al. (2022) 提出 AIB-JSCC，首次将信息瓶颈（Information Bottleneck）原理从监督学习扩展到无监督图像传输。

核心思想是同时优化两个目标：最大化重建质量 $I(\mathbf{x}; \hat{\mathbf{y}})$ 和最小化传输速率 $I(\mathbf{x}; \mathbf{y})$ 。形式化为：

\max_{\phi,\theta} I(\mathbf{x}; \hat{\mathbf{y}}) - \beta \cdot I(\mathbf{x}; \mathbf{y})

其中 $I(\mathbf{x}; \mathbf{y})$ 衡量编码输出的信息量（传输代价）， $I(\mathbf{x}; \hat{\mathbf{y}})$ 衡量编码输出对重建的有用性。互信息的计算本身是不可行的，AIB-JSCC 使用变分下界估计 $I(\mathbf{x}; \hat{\mathbf{y}})$ ，用 CLUB 上界约束 $I(\mathbf{x}; \mathbf{y})$ ，使目标函数可微可导。

PID 控制器自适应调节： $\beta$ 不是手动设定的超参数，而是由 PID 控制器根据当前失真水平动态调整。当重建质量低于目标时， $\beta$ 减小（允许传输更多信息）；当质量高于目标时， $\beta$ 增大（压缩更激进）。

实验结果：在二进制对称信道（BSC）上，AIB-JSCC 相比 IABF 方案 PSNR 提升 0.3–0.4 dB，传输比特减少 20%+（CIFAR10, $\varepsilon$ =0.2），下游分类精度从 81.7% 提升到 88.1%，参数量减少 44%。

AIB-JSCC 的贡献：将 IB 原理引入无监督图像传输，提供最大压缩比的理论指导。PID 控制器使单一模型能在不同信道条件下自动平衡压缩率和重建质量，无需针对每个 CBR 单独训练。论文发表于 IEEE JSAC，作者包括 H. Vincent Poor（21 万次引用）和 Walid Saad（4 万次引用）。

阶段一总结

方法	年份	架构	核心创新	局限
DeepJSCC	2018	CNN	首个端到端深度 JSCC	固定码率，需单独训练每个 CBR
DeepJSCC-f	2020	CNN	利用信道反馈迭代优化	需要反馈通道
AIB-JSCC	2022	CNN	IB 原理自适应码率 + PID 控制	互信息估计的近似误差

阶段二 · Phase 2

Transformer + 信道自适应（2022–2023）

WITT → SCAN → Multi-task

为什么需要 Transformer？

第一代 DeepJSCC 使用 CNN 作为编码器/解码器，这带来两个问题：

局部感受野：CNN 的卷积核只能看到局部区域，无法捕捉图像中的远距离依赖。在高分辨率图像上，这意味着编码器无法理解"图像左上角的内容与右下角的内容有什么关系"。
固定压缩率：每个压缩比需要单独训练，或者需要复杂的自适应机制。

2023 年，Vision Transformer 在图像理解任务上的成功自然引出了一个想法：用 Transformer 替代 CNN 来做 JSCC。

WITT：Swin Transformer 引入无线传输

WITT（Yang et al., 2023）是第一个将 Swin Transformer 引入 JSCC 的工作。它有三个核心创新：

1. 层级化 Swin Transformer 骨干

WITT 使用 4 阶段的 Swin Transformer 作为编码器。每个阶段包含多个 Swin Block，每个 Block 内部使用移位窗口注意力（Shifted Window Attention）。这种设计有两个关键优势：窗口注意力的复杂度是 O(HW)，适合高分辨率图像；移位窗口允许跨窗口信息传递，实现全局建模。

2. Channel ModNet：单模型多 SNR 自适应

这是 WITT 最优雅的设计。Channel ModNet 接收当前 SNR 值作为输入，输出一个 M 维调制向量 $$sm_j$$ ，对 Swin Transformer 的中间特征做 element-wise 调制：

\text{output} = \text{input} \odot sm_j, \quad sm_j = \text{ModNet}(\text{SNR})

这意味着一个模型可以在 SNR 1–13 dB 的范围内工作，无需针对每个 SNR 单独训练。ModNet 的结构很简单：8 个全连接层 + 7 个 SNR 调制模块级联。

3. 计算效率悖论

尽管参数量更大（28.2M vs 16.2M），WITT 的 FLOPs 反而更低（198G vs 511G），推理速度快 25%。这是因为 Swin 的窗口注意力比密集卷积更高效。

指标	WITT	ADJSCC (CNN)	改善
Kodak PSNR (SNR=7dB, $\rho$ =1/12)	~29 dB	~27 dB	+2 dB
CLIC2021 高分辨率	显著优势	退化严重	分辨率越高差距越大
FLOPs	198G	511G	-61%
推理时间	116 ms	155 ms	-25%

WITT 的关键发现：Transformer 在高分辨率图像上的优势随分辨率增大而增大。CNN 的局部卷积无法捕捉远距离依赖，而 Swin 的全局注意力可以——这在图像传输中尤为关键，因为压缩需要理解全局结构。

信道自适应方法全景

除了 WITT 的 Channel ModNet，2022–2023 年还涌现了多种信道自适应机制：

方法	架构	自适应机制	核心思想
SNR 嵌入	CNN	将 SNR 作为额外输入通道	最简单的实现
Gated Net	CNN	根据信道条件裁剪特征维度	自适应压缩率
Channel ModNet	Transformer	SNR → 调制向量 → 特征缩放	WITT 的优雅设计
信道反馈	混合	基于 SDOP 动态分配资源	SCAN 的可靠性指标

SCAN：语义失真中断概率

Zhang et al. (2023) 提出了 语义失真中断概率 (SDOP) 这一新的可靠性指标，定义为瞬时失真超过目标阈值的概率。基于 SDOP，设计了自适应信道反馈框架：当接收端检测到重建质量差时，通知发送端分配更多通信资源重传。

Multi-task JSCC：恢复 + 分类联合优化

Lyu et al. (2023) 首次尝试多任务联合优化。损失函数中同时优化两个目标：

编码率降低（促进判别性特征学习 → 提升分类准确率）
MSE 最小化（促进信息性特征学习 → 提升图像重建质量）

通过 Gated Net 根据信道条件自适应裁剪特征维度，在两个目标之间取得平衡。

阶段三 · Phase 3

生成式语义通信（2023–至今）

GESCO → DiffJSCC → Gen-SC

范式转变：从"恢复"到"生成"

这是当前最活跃、最具颠覆性的方向。核心洞察是：

扩散模型的去噪过程天然地与信道噪声相容。接收端不再"恢复"像素，而是从受损信号中"生成"语义一致的图像。这意味着即使传输的信息不完整，只要语义信息还在，接收端就能"想象"出合理的图像。

传统方案的目标是逐像素还原原始图像；生成式语义通信的目标是在语义层面重建等价图像。这意味着即使像素不同，只要物体可识别、场景可理解，传输就是成功的。这一范式转变引发了三个子方向的探索。

图：DiffJSCC 框架总览。发送端用 JSCC 编码器将图像映射为信道符号；接收端先用 JSCC 解码器得到初始重建，再提取空间/文本/信道状态条件，控制 Stable Diffusion 生成最终高真实感图像。（来源：DiffJSCC, arXiv:2404.17736, Fig.2）

GESCO：噪声鲁棒扩散模型

GESCO（Grassucci et al., 2023）是将扩散模型引入语义通信的开创性工作。它的设计直觉是：既然语义图在传输过程中会被信道噪声破坏，为什么不直接训练扩散模型学会从损坏的语义图中重建高质量图像？

方法 Pipeline：

发送端：原始图像 → 语义分割模型 → 语义标签图 → One-hot 编码 → BPG 压缩 → 信道传输
接收端：带噪语义图 → BPG 解压 → 快速去噪 → 噪声鲁棒扩散模型 → 重建图像

核心创新：噪声鲁棒训练

GESCO 在训练时向语义图注入随机噪声（70% batches 有噪声，30% 无噪声），噪声水平在 PSNR 1–30 dB 之间均匀采样。这使得扩散模型学会对噪声不敏感的语义表示。

L = \mathbb{E}_{\mathbf{x}, \mathbf{s}, t, \epsilon} \left[ \|\epsilon - \epsilon_\theta(\mathbf{x}_t, \mathbf{s} + \mathbf{n}, t) \|^2 \right]

其中 $\mathbf{n} \sim \mathcal{N}(0, \sigma^2 \mathbf{I})$ 是添加到语义条件的噪声——这是 GESCO 与标准语义图像合成（SDM）的核心区别。

实验结果：在 PSNR=10dB（严重噪声）下，所有竞品（SPADE、CC-FPSE、SDM）输出纯噪声，而 GESCO 仍能生成有意义的图像（mIoU=0.365, LPIPS=0.683）。在目标检测任务上，GESCO 的 mAP 达到 0.390，而 ControlNet 仅为 0.018。

方法	PSNR=10dB 下	mIoU ↑	LPIPS ↓	mAP ↑
SPADE	❌ 纯噪声	—	—	—
ControlNet	❌ 纯噪声	—	—	0.018
SDM	❌ 纯噪声	—	—	—
GESCO	✅ 可用	0.365	0.683	0.390

DiffJSCC：扩散辅助高真实感传输

DiffJSCC（Yang et al., 2024）采用了一种更实用的策略：不替换现有的 JSCC 系统，而是在 JSCC 解码器后面接一个扩散模型作为"增强器"。

两阶段 Pipeline：

第一阶段：标准 DeepJSCC 编码器/解码器 → 从信道符号得到初始重建 $x_{init}$
第二阶段：ControlNet 风格的条件扩散模型，以 $x_{init}$ 的空间特征、BLIP2/CLIP 文本特征、以及 SNR/channel gain 作为条件，生成最终的高真实感图像

核心设计：第二阶段的条件扩散模型基于 Stable Diffusion 2.1-base，使用 ControlNet 架构冻结 SD 的 UNet，只训练控制模块。条件包括：空间特征 $$f_v$$ （由 SD VAE encoder 提取）、文本特征 $$f_t$$ （由 BLIP2 caption + CLIP text encoder 提取）、信道状态 $\{h, \gamma\}$ （channel gain 与 SNR）。

关键实验结果：

指标	条件	DiffJSCC	DeepJSCC	改善
FID ↓	Kodak AWGN 1dB, $\rho$ =1/384	117.9	330+	64.3%
FID ↓	Kodak vs BPG+Capacity	117.9	165.4 (BPG)	28.7%
LPIPS ↓	AWGN 多 SNR 平均, $\rho$ =1/384	显著改善	baseline	41.4%
mIoU ↑	ADE20K $\rho$ =1/384	显著提升	baseline	52.5%

消融发现：

仅用空间特征（不含 SNR）效果有限；加入 SNR 后平均 FID 改善 ~2%；加入文本 prompt 额外改善 4.3%
采样步数：25→50 步提升明显（LPIPS 改善 0.02, FID 改善 6.5）；50→100 步收益边际下降
权重参数 $\lambda$ ：增大 $\lambda$ 让结果更贴近初始 JSCC 重建，提高 PSNR/MS-SSIM 但降低感知质量

Gen-SC：语言导向的极致压缩

Gen-SC（Wei et al., 2024）提出了一个极端思路：将图像转换为文本描述传输，接收端用微调的扩散模型从文本生成图像。

Pipeline：

发送端：原始图像 → BLIP 图像描述 → BART-SC 端到端文本信道编码 → 信道传输
接收端：BART-SC 解码 → 恢复文本描述 → DreamBooth + LoRA 微调的 SDXL → 重建图像

关键数据：

传输数据量减少 99%（从像素到文本描述）
BART-SC 在所有 SNR 下 BLEU 均优于 baseline，SNR=5dB 时 BLEU=0.45（传统方法 ~0.1）
DreamBooth 微调后 LPIPS 降低 0.1，语义分类准确率 >80%（年龄/性别/表情）
LoRA rank=128 足以实现个性化，学习率 1e-5，10 张图像 × 10 epochs

SNR (dB)	Huffman+RS BLEU	DeepSC BLEU	BART-SC BLEU
5	~0.1	~0.3	~0.45
7	~0.2	~0.4	~0.55
10	~0.35	~0.55	~0.7

范式挑战：Gen-SC 用 99% 的压缩率证明了"语义比像素更高效"。但它也暴露了一个根本问题：当图像包含细微纹理（如电缆缺陷、医学影像中的微小异常）时，文本描述无法捕获足够的细节，扩散模型会"想象"出不存在的内容。这正是生成式语义通信的核心张力——效率与保真度之间的权衡。

对比 · Comparison

系统性方法对比

全景对比表

方法	年份	架构	自适应	生成式	多任务	核心创新	关键指标
DeepJSCC	2018	CNN	✗	✗	✗	首个端到端 Deep JSCC	PSNR +3–8 dB vs 分离方案
DeepJSCC-f	2020	CNN	✓	✗	✗	利用信道反馈	PSNR +1–2 dB vs DeepJSCC
AIB-JSCC	2022	CNN	✓	✗	✗	信息瓶颈自适应码率	单模型多 CBR
WITT	2023	Swin-T	✓	✗	✗	Transformer 架构	PSNR +2–5 dB, FLOPs -61%
SCAN	2023	CNN	✓	✗	✗	SDOP 可靠性指标	自适应资源分配
Multi-task JSCC	2023	CNN	✓	✗	✓	恢复 + 分类联合	分类+重建双优化
GESCO	2023	CNN+Diff	✗	✓	✗	噪声鲁棒扩散语义通信	PSNR=10dB 下 mIoU=0.365
DiffJSCC	2024	CNN+Diff	✗	✓	✗	扩散辅助高真实感	FID 改善 64.3%
Gen-SC	2024	Trans+Diff	✗	✓	✗	文本传输 + 扩散生成	99% 压缩率, BLEU +0.15

四个关键权衡

1. 压缩比 vs 鲁棒性

更激进的压缩意味着对噪声更敏感。但扩散模型提供了一条新路径：传输极少的语义信息，接收端"脑补"细节。Gen-SC 用 99% 的压缩率 + 80% 的语义准确率证明了这条路的可行性。

2. 计算复杂度 vs 质量

扩散模型解码需要多步迭代（25–1000 步），延迟在秒级。CNN 解码器推理速度快但质量有限。DiffJSCC 的消融实验显示，50 步采样已经足够获得大部分收益（LPIPS 从 0.35 降到 0.22），100 步的边际改善仅为 0.004。

3. 通用性 vs 专用性

通用 JSCC 在各种信道条件下稳定但不够极致。针对特定 SNR 优化的模型在该范围内更优但泛化能力差。WITT 的 Channel ModNet 提供了一种优雅的折中：单一模型在 1–13 dB 范围内工作。

4. 像素保真 vs 语义保真

MSE/PSNR 优化像素精确度，扩散模型优化感知质量（LPIPS/FID）。二者在低 SNR 下趋势相反——DiffJSCC 的实验显示，FID 改善 64% 的同时 PSNR 可能反而下降。这意味着"看起来更好的图像"不等于"像素更准确的图像"。

技术演进脉络

graph TD
  A["Shannon 分离定理
1948"] --> B["传统 JSCC
小波+矢量量化"]
  B --> C["DeepJSCC
2018 · CNN 端到端"]
  C --> D["DeepJSCC-f
2020 · 信道反馈"]
  C --> E["AIB-JSCC
2022 · 信息瓶颈"]
  D --> F["WITT
2023 · Swin Transformer"]
  E --> F
  F --> G["SCAN
2023 · SDOP 可靠性"]
  F --> H["Multi-task JSCC
2023 · 恢复+分类"]
  C --> I["GESCO
2023 · 噪声鲁棒扩散"]
  I --> J["DiffJSCC
2024 · 扩散增强"]
  I --> K["Gen-SC
2024 · 文本→图像"]
  J --> L["实时生成式 SC
2025+ · Consistency Models"]
  K --> L

跨方法交叉发现

架构选择与生成模型存在协同效应：WITT 证明 Transformer 在高分辨率上优于 CNN，而 DiffJSCC 证明扩散模型可以进一步提升 JSCC 的感知质量。一个自然的问题是：如果将 WITT 的 Transformer 编码器与 DiffJSCC 的扩散增强器结合，是否能在高分辨率 + 低 SNR 下同时获得 Transformer 的特征提取优势和扩散模型的生成优势？目前没有论文同时验证这两个方向。

压缩率与生成质量存在非线性关系：Gen-SC 用 99% 压缩率（文本）仍能保持 80% 语义准确率，而 DiffJSCC 在 $ ho$=1/384（极低码率）下 FID 仍为 117.9。这说明生成模型可以在极低信息量下"脑补"大量细节，但脑补的细节可能与原始图像不一致（hallucination）。压缩率与生成质量之间不是线性关系，而是存在一个"语义阈值"——只要传输的信息量超过这个阈值，生成模型就能重建出语义一致的图像。

前瞻 · Outlook

开放问题与未来方向

开放问题

1. 实时性：扩散模型的延迟瓶颈

扩散模型多步去噪延迟高（50 步 ≈ 秒级），难以满足实时传输需求（如视频通话、自动驾驶）。Consistency Models、LCM 等一步生成技术正在缩小这个差距，但在语义通信场景中的验证还不充分。核心问题是：一步生成能否保持足够的语义保真度？

2. 泛化信道：从 AWGN 到真实环境

现有工作主要在 AWGN 信道验证。实际场景涉及频率选择性衰落、多径效应、非高斯噪声（脉冲噪声、工业电磁干扰等）。DiffJSCC 的 synthesis 报告明确指出："标准实验主要是 AWGN/Rayleigh，缺少工业电磁干扰、脉冲噪声、丢包信道"。这是一个巨大的研究空白。

3. 丢包处理：分组交换网络的挑战

大多数 DeepJSCC 假设连续传输，未考虑分组交换网络中的丢包。在 TCP/UDP 传输中，丢包率可达 1–10%，这对 JSCC 系统提出了新的鲁棒性要求。

4. 安全性：语义通信的双刃剑

语义通信在低 SNR 下仍可解码——这意味着窃听者也能恢复语义信息。传统加密在比特层面保护数据，但语义信息可能在编码过程中泄露。这是一个需要物理层安全与语义安全联合考虑的问题。

5. 评估标准：缺乏统一基准

不同论文使用不同数据集（Kodak、DIV2K、CelebA、Cityscapes）、不同信道模型（AWGN、Rayleigh、Nakagami）、不同指标（PSNR、SSIM、LPIPS、FID、mIoU）。缺乏统一评估协议使得跨论文对比困难。

6. 工业场景：细微纹理的挑战

电缆缺陷检测等场景需要保留缺陷的细微纹理特征，而非仅语义层面可识别。DiffJSCC 的研究报告明确警告："生成式结果可能 hallucinate，对电缆缺陷等细微异常纹理需谨慎"。这是一个生成式语义通信尚未解决的关键问题——如何在语义效率与细节保真之间取得平衡？

未来趋势

1. 生成模型轻量化

Consistency Models、LCM（Latent Consistency Models）等一步生成技术将扩散模型推理压缩到实时级别。2025 年的工作已经在探索将这些技术应用于语义通信。

2. 多模态语义通信

联合传输图像、文本、语音，利用跨模态互补增强鲁棒性。例如，当图像传输质量下降时，文本描述可以作为补充。

3. AI 原生 6G

语义通信作为 6G 空口核心技术，从物理层到应用层的全栈 AI 化。3GPP 已经开始讨论 AI/ML 在信道估计、波束管理等方面的应用。

4. 知识库驱动通信

发送端和接收端共享预训练知识库（如 CLIP、Stable Diffusion），只需传输语义索引或微小修正量。Gen-SC 已经验证了这条路的可行性。

5. 任务导向通信

从"传输图像"到"传输任务结果"。例如，在自动驾驶场景中，接收端只需要知道"前方有行人"，而不需要完整的图像像素。这将通信目标从"重建"转向"决策"。

结论 · Conclusion

一句话总结

受干扰环境下的图像压缩与传输正经历从"分离编码"到"端到端联合编码"再到"生成式语义通信"的范式转变。DeepJSCC 证明了端到端学习的优越性，WITT 展示了 Transformer 在高分辨率场景的优势，而 GESCO、DiffJSCC、Gen-SC 则将扩散模型引入通信领域，接收端从"恢复"变为"生成"。

但这条路并非坦途。实时性、泛化性、安全性、评估标准化——每一个都是悬而未决的挑战。对于工业检测等具体应用，保留任务关键的细微特征仍是核心难题。未来的通信系统可能不再传输"图像"，而是传输"语义"——但如何确保语义不丢失关键细节，将是这一范式能否落地的关键。

参考来源

系列导航

本文是图像压缩专题（五），承接专题（四）的受干扰环境问题，并进一步展开 JSCC、信道自适应与生成式语义通信。完整目录见图像压缩系列总览。