受干扰环境下的图像压缩与传输
在无线通信、工业检测、IoT 传感等实际场景中,图像数据必须在带宽受限且存在噪声、衰落、丢包的信道上传输。传统通信系统遵循 Shannon 分离定理:信源编码(压缩)与信道编码(纠错)独立设计。只要信源熵 $H < C$(信道容量),分离设计渐近最优。
但现实是残酷的。在有限码长、低延迟、非 AWGN 信道下,分离设计显著次优,且存在致命的"悬崖效应"——一旦 SNR 低于阈值,重建质量断崖式下降。在低 SNR、高丢包率或资源极度受限的场景下(电缆缺陷扫描、无人机遥传、深海通信),这个问题尤为突出。
2018 年以来,联合信源信道编码 (JSCC) 重新进入研究视野。深度学习使端到端优化成为可能,而扩散模型的引入进一步颠覆了"恢复"的传统思路——接收端开始"生成"而非"重建"。
本综述按照技术范式的演进,将该领域划分为三个阶段:Deep JSCC 端到端联合编码(2018–2022)、Transformer + 信道自适应(2022–2023)、生成式语义通信(2023–至今)。我们将从动机、架构、实验、局限四个维度,对每个阶段的代表性工作进行教学式解读,并在最后给出跨论文的系统对比与开放问题。
Shannon 分离定理与实际的差距
Shannon 1948 年的分离定理告诉我们:信源编码和信道编码可以独立设计,联合优化不会比分离设计更好。这个定理成立的条件是:无限码长、遍历信道、无延迟约束。在现实中,这三个条件无一满足。
分离设计的核心问题是"悬崖效应"(cliff effect)。传统系统设计一个目标 SNR,使用匹配的信道编码率。当实际 SNR 高于目标时,质量很好;但一旦 SNR 低于目标哪怕 1 dB,误码率急剧上升,重建质量从"可用"直接跌到"不可用"。这种不连续的性能退化在实时通信中是致命的。
JSCC 的历史脉络
联合信源信道编码并非新概念。1970–2000 年代就有大量理论工作,如 Bassgo、Farber 等人的模拟传输方案。但受限于优化工具,这些方法只能处理简单的信源和信道模型。
深度学习改变了一切。2018 年,Bourtsoulatze 等人首次提出用神经网络实现端到端 JSCC(即 DeepJSCC),将图像像素直接映射为复数信道符号。这个看似简单的想法打开了一个新的研究方向。
关键概念速查
| 概念 | 含义 | 与传统方案的关系 |
|---|---|---|
| 信道带宽比 (CBR) $\rho = k / (2 \times 3 \times H \times W)$ | 每个像素占用的信道符号数 | $\rho$ 越小,压缩越激进 |
| PSNR | 峰值信噪比,衡量像素级重建质量 | 越高越好,但不反映感知质量 |
| LPIPS | 感知距离,衡量人眼感知相似度 | 越低越好,深度特征空间距离 |
| FID | Fréchet Inception Distance,分布级质量 | 越低越好,衡量生成真实感 |
| AWGN | 加性白高斯噪声信道 | 最基本的信道模型 |
| Rayleigh 衰落 | 多径传播导致的信道增益随机变化 | 更接近实际无线信道 |
| JSCC 编码器/解码器 | 把图像直接映射到复数信道符号(编码器)或从接收符号重建图像(解码器)的神经网络 | 替代传统“压缩 + 纠错”两段式流程 |
| CSI | Channel State Information,信道状态信息,主要包括 SNR $\gamma$ 和信道增益 $h$ | 告诉编解码器当前信道条件 |
| ControlNet | 给预训练扩散 UNet 增加可训练控制分支的架构,用额外条件控制生成 | DiffJSCC 用它注入空间/文本/信道条件 |
| 中间引导 (Intermediate Guidance) | 在扩散去噪过程中,把中间估计拉向初始重建,平衡真实感和保真度 | 用 $\lambda$ 参数控制强度 |
从手工设计到端到端学习
传统 JSCC 采用小波变换 + 矢量量化 + UEP(不等错误保护),例如 Chatellier et al. (2007) 针对电离层信道的方案。但手工设计的特征难以适应复杂信道,也无法利用深度学习强大的表示能力。
DeepJSCC(Bourtsoulatze et al., 2018)开创了端到端深度 JSCC 范式。这个想法的核心直觉非常简洁:既然我们可以训练一个自编码器来压缩图像,为什么不把信道也"融"进这个自编码器呢?
典型系统由三部分组成:
整个系统通过最小化端到端重建误差来联合优化:
核心优势:平滑退化
DeepJSCC 最引人注目的性质是平滑退化。随着 SNR 下降,图像质量逐渐变差,但不会出现悬崖式的质量崩溃。在低 SNR(0–5 dB)下,DeepJSCC 显著优于 JPEG + LDPC 等传统方案,PSNR 高出 3–8 dB。
AIB-JSCC:信息瓶颈自适应码率
原始 DeepJSCC 的一个关键限制是:只优化重建失真,忽视传输速率的最小化。这导致传输的数据量可能远超理论最小值。Sun et al. (2022) 提出 AIB-JSCC,首次将信息瓶颈(Information Bottleneck)原理从监督学习扩展到无监督图像传输。
核心思想是同时优化两个目标:最大化重建质量 $I(\mathbf{x}; \hat{\mathbf{y}})$ 和最小化传输速率 $I(\mathbf{x}; \mathbf{y})$。形式化为:
其中 $I(\mathbf{x}; \mathbf{y})$ 衡量编码输出的信息量(传输代价),$I(\mathbf{x}; \hat{\mathbf{y}})$ 衡量编码输出对重建的有用性。互信息的计算本身是不可行的,AIB-JSCC 使用变分下界估计 $I(\mathbf{x}; \hat{\mathbf{y}})$,用 CLUB 上界约束 $I(\mathbf{x}; \mathbf{y})$,使目标函数可微可导。
PID 控制器自适应调节:$\beta$ 不是手动设定的超参数,而是由 PID 控制器根据当前失真水平动态调整。当重建质量低于目标时,$\beta$ 减小(允许传输更多信息);当质量高于目标时,$\beta$ 增大(压缩更激进)。
实验结果:在二进制对称信道(BSC)上,AIB-JSCC 相比 IABF 方案 PSNR 提升 0.3–0.4 dB,传输比特减少 20%+(CIFAR10, $\varepsilon$=0.2),下游分类精度从 81.7% 提升到 88.1%,参数量减少 44%。
阶段一总结
| 方法 | 年份 | 架构 | 核心创新 | 局限 |
|---|---|---|---|---|
| DeepJSCC | 2018 | CNN | 首个端到端深度 JSCC | 固定码率,需单独训练每个 CBR |
| DeepJSCC-f | 2020 | CNN | 利用信道反馈迭代优化 | 需要反馈通道 |
| AIB-JSCC | 2022 | CNN | IB 原理自适应码率 + PID 控制 | 互信息估计的近似误差 |
为什么需要 Transformer?
第一代 DeepJSCC 使用 CNN 作为编码器/解码器,这带来两个问题:
- 局部感受野:CNN 的卷积核只能看到局部区域,无法捕捉图像中的远距离依赖。在高分辨率图像上,这意味着编码器无法理解"图像左上角的内容与右下角的内容有什么关系"。
- 固定压缩率:每个压缩比需要单独训练,或者需要复杂的自适应机制。
2023 年,Vision Transformer 在图像理解任务上的成功自然引出了一个想法:用 Transformer 替代 CNN 来做 JSCC。
WITT:Swin Transformer 引入无线传输
WITT(Yang et al., 2023)是第一个将 Swin Transformer 引入 JSCC 的工作。它有三个核心创新:
1. 层级化 Swin Transformer 骨干
WITT 使用 4 阶段的 Swin Transformer 作为编码器。每个阶段包含多个 Swin Block,每个 Block 内部使用移位窗口注意力(Shifted Window Attention)。这种设计有两个关键优势:窗口注意力的复杂度是 O(HW),适合高分辨率图像;移位窗口允许跨窗口信息传递,实现全局建模。
2. Channel ModNet:单模型多 SNR 自适应
这是 WITT 最优雅的设计。Channel ModNet 接收当前 SNR 值作为输入,输出一个 M 维调制向量 $sm_j$,对 Swin Transformer 的中间特征做 element-wise 调制:
这意味着一个模型可以在 SNR 1–13 dB 的范围内工作,无需针对每个 SNR 单独训练。ModNet 的结构很简单:8 个全连接层 + 7 个 SNR 调制模块级联。
3. 计算效率悖论
尽管参数量更大(28.2M vs 16.2M),WITT 的 FLOPs 反而更低(198G vs 511G),推理速度快 25%。这是因为 Swin 的窗口注意力比密集卷积更高效。
| 指标 | WITT | ADJSCC (CNN) | 改善 |
|---|---|---|---|
| Kodak PSNR (SNR=7dB, $\rho$=1/12) | ~29 dB | ~27 dB | +2 dB |
| CLIC2021 高分辨率 | 显著优势 | 退化严重 | 分辨率越高差距越大 |
| FLOPs | 198G | 511G | -61% |
| 推理时间 | 116 ms | 155 ms | -25% |
信道自适应方法全景
除了 WITT 的 Channel ModNet,2022–2023 年还涌现了多种信道自适应机制:
| 方法 | 架构 | 自适应机制 | 核心思想 |
|---|---|---|---|
| SNR 嵌入 | CNN | 将 SNR 作为额外输入通道 | 最简单的实现 |
| Gated Net | CNN | 根据信道条件裁剪特征维度 | 自适应压缩率 |
| Channel ModNet | Transformer | SNR → 调制向量 → 特征缩放 | WITT 的优雅设计 |
| 信道反馈 | 混合 | 基于 SDOP 动态分配资源 | SCAN 的可靠性指标 |
SCAN:语义失真中断概率
Zhang et al. (2023) 提出了 语义失真中断概率 (SDOP) 这一新的可靠性指标,定义为瞬时失真超过目标阈值的概率。基于 SDOP,设计了自适应信道反馈框架:当接收端检测到重建质量差时,通知发送端分配更多通信资源重传。
Multi-task JSCC:恢复 + 分类联合优化
Lyu et al. (2023) 首次尝试多任务联合优化。损失函数中同时优化两个目标:
- 编码率降低(促进判别性特征学习 → 提升分类准确率)
- MSE 最小化(促进信息性特征学习 → 提升图像重建质量)
通过 Gated Net 根据信道条件自适应裁剪特征维度,在两个目标之间取得平衡。
范式转变:从"恢复"到"生成"
这是当前最活跃、最具颠覆性的方向。核心洞察是:
传统方案的目标是逐像素还原原始图像;生成式语义通信的目标是在语义层面重建等价图像。这意味着即使像素不同,只要物体可识别、场景可理解,传输就是成功的。这一范式转变引发了三个子方向的探索。
GESCO:噪声鲁棒扩散模型
GESCO(Grassucci et al., 2023)是将扩散模型引入语义通信的开创性工作。它的设计直觉是:既然语义图在传输过程中会被信道噪声破坏,为什么不直接训练扩散模型学会从损坏的语义图中重建高质量图像?
方法 Pipeline:
- 发送端:原始图像 → 语义分割模型 → 语义标签图 → One-hot 编码 → BPG 压缩 → 信道传输
- 接收端:带噪语义图 → BPG 解压 → 快速去噪 → 噪声鲁棒扩散模型 → 重建图像
核心创新:噪声鲁棒训练
GESCO 在训练时向语义图注入随机噪声(70% batches 有噪声,30% 无噪声),噪声水平在 PSNR 1–30 dB 之间均匀采样。这使得扩散模型学会对噪声不敏感的语义表示。
其中 $\mathbf{n} \sim \mathcal{N}(0, \sigma^2 \mathbf{I})$ 是添加到语义条件的噪声——这是 GESCO 与标准语义图像合成(SDM)的核心区别。
实验结果:在 PSNR=10dB(严重噪声)下,所有竞品(SPADE、CC-FPSE、SDM)输出纯噪声,而 GESCO 仍能生成有意义的图像(mIoU=0.365, LPIPS=0.683)。在目标检测任务上,GESCO 的 mAP 达到 0.390,而 ControlNet 仅为 0.018。
| 方法 | PSNR=10dB 下 | mIoU ↑ | LPIPS ↓ | mAP ↑ |
|---|---|---|---|---|
| SPADE | ❌ 纯噪声 | — | — | — |
| ControlNet | ❌ 纯噪声 | — | — | 0.018 |
| SDM | ❌ 纯噪声 | — | — | — |
| GESCO | ✅ 可用 | 0.365 | 0.683 | 0.390 |
DiffJSCC:扩散辅助高真实感传输
DiffJSCC(Yang et al., 2024)采用了一种更实用的策略:不替换现有的 JSCC 系统,而是在 JSCC 解码器后面接一个扩散模型作为"增强器"。
两阶段 Pipeline:
- 第一阶段:标准 DeepJSCC 编码器/解码器 → 从信道符号得到初始重建 $x_{init}$
- 第二阶段:ControlNet 风格的条件扩散模型,以 $x_{init}$ 的空间特征、BLIP2/CLIP 文本特征、以及 SNR/channel gain 作为条件,生成最终的高真实感图像
核心设计:第二阶段的条件扩散模型基于 Stable Diffusion 2.1-base,使用 ControlNet 架构冻结 SD 的 UNet,只训练控制模块。条件包括:空间特征 $f_v$(由 SD VAE encoder 提取)、文本特征 $f_t$(由 BLIP2 caption + CLIP text encoder 提取)、信道状态 $\{h, \gamma\}$(channel gain 与 SNR)。
关键实验结果:
| 指标 | 条件 | DiffJSCC | DeepJSCC | 改善 |
|---|---|---|---|---|
| FID ↓ | Kodak AWGN 1dB, $\rho$=1/384 | 117.9 | 330+ | 64.3% |
| FID ↓ | Kodak vs BPG+Capacity | 117.9 | 165.4 (BPG) | 28.7% |
| LPIPS ↓ | AWGN 多 SNR 平均, $\rho$=1/384 | 显著改善 | baseline | 41.4% |
| mIoU ↑ | ADE20K $\rho$=1/384 | 显著提升 | baseline | 52.5% |
消融发现:
- 仅用空间特征(不含 SNR)效果有限;加入 SNR 后平均 FID 改善 ~2%;加入文本 prompt 额外改善 4.3%
- 采样步数:25→50 步提升明显(LPIPS 改善 0.02, FID 改善 6.5);50→100 步收益边际下降
- 权重参数 $\lambda$:增大 $\lambda$ 让结果更贴近初始 JSCC 重建,提高 PSNR/MS-SSIM 但降低感知质量
Gen-SC:语言导向的极致压缩
Gen-SC(Wei et al., 2024)提出了一个极端思路:将图像转换为文本描述传输,接收端用微调的扩散模型从文本生成图像。
Pipeline:
- 发送端:原始图像 → BLIP 图像描述 → BART-SC 端到端文本信道编码 → 信道传输
- 接收端:BART-SC 解码 → 恢复文本描述 → DreamBooth + LoRA 微调的 SDXL → 重建图像
关键数据:
- 传输数据量减少 99%(从像素到文本描述)
- BART-SC 在所有 SNR 下 BLEU 均优于 baseline,SNR=5dB 时 BLEU=0.45(传统方法 ~0.1)
- DreamBooth 微调后 LPIPS 降低 0.1,语义分类准确率 >80%(年龄/性别/表情)
- LoRA rank=128 足以实现个性化,学习率 1e-5,10 张图像 × 10 epochs
| SNR (dB) | Huffman+RS BLEU | DeepSC BLEU | BART-SC BLEU |
|---|---|---|---|
| 5 | ~0.1 | ~0.3 | ~0.45 |
| 7 | ~0.2 | ~0.4 | ~0.55 |
| 10 | ~0.35 | ~0.55 | ~0.7 |
全景对比表
| 方法 | 年份 | 架构 | 自适应 | 生成式 | 多任务 | 核心创新 | 关键指标 |
|---|---|---|---|---|---|---|---|
| DeepJSCC | 2018 | CNN | ✗ | ✗ | ✗ | 首个端到端 Deep JSCC | PSNR +3–8 dB vs 分离方案 |
| DeepJSCC-f | 2020 | CNN | ✓ | ✗ | ✗ | 利用信道反馈 | PSNR +1–2 dB vs DeepJSCC |
| AIB-JSCC | 2022 | CNN | ✓ | ✗ | ✗ | 信息瓶颈自适应码率 | 单模型多 CBR |
| WITT | 2023 | Swin-T | ✓ | ✗ | ✗ | Transformer 架构 | PSNR +2–5 dB, FLOPs -61% |
| SCAN | 2023 | CNN | ✓ | ✗ | ✗ | SDOP 可靠性指标 | 自适应资源分配 |
| Multi-task JSCC | 2023 | CNN | ✓ | ✗ | ✓ | 恢复 + 分类联合 | 分类+重建双优化 |
| GESCO | 2023 | CNN+Diff | ✗ | ✓ | ✗ | 噪声鲁棒扩散语义通信 | PSNR=10dB 下 mIoU=0.365 |
| DiffJSCC | 2024 | CNN+Diff | ✗ | ✓ | ✗ | 扩散辅助高真实感 | FID 改善 64.3% |
| Gen-SC | 2024 | Trans+Diff | ✗ | ✓ | ✗ | 文本传输 + 扩散生成 | 99% 压缩率, BLEU +0.15 |
四个关键权衡
1. 压缩比 vs 鲁棒性
更激进的压缩意味着对噪声更敏感。但扩散模型提供了一条新路径:传输极少的语义信息,接收端"脑补"细节。Gen-SC 用 99% 的压缩率 + 80% 的语义准确率证明了这条路的可行性。
2. 计算复杂度 vs 质量
扩散模型解码需要多步迭代(25–1000 步),延迟在秒级。CNN 解码器推理速度快但质量有限。DiffJSCC 的消融实验显示,50 步采样已经足够获得大部分收益(LPIPS 从 0.35 降到 0.22),100 步的边际改善仅为 0.004。
3. 通用性 vs 专用性
通用 JSCC 在各种信道条件下稳定但不够极致。针对特定 SNR 优化的模型在该范围内更优但泛化能力差。WITT 的 Channel ModNet 提供了一种优雅的折中:单一模型在 1–13 dB 范围内工作。
4. 像素保真 vs 语义保真
MSE/PSNR 优化像素精确度,扩散模型优化感知质量(LPIPS/FID)。二者在低 SNR 下趋势相反——DiffJSCC 的实验显示,FID 改善 64% 的同时 PSNR 可能反而下降。这意味着"看起来更好的图像"不等于"像素更准确的图像"。
技术演进脉络
graph TD A["Shannon 分离定理
1948"] --> B["传统 JSCC
小波+矢量量化"] B --> C["DeepJSCC
2018 · CNN 端到端"] C --> D["DeepJSCC-f
2020 · 信道反馈"] C --> E["AIB-JSCC
2022 · 信息瓶颈"] D --> F["WITT
2023 · Swin Transformer"] E --> F F --> G["SCAN
2023 · SDOP 可靠性"] F --> H["Multi-task JSCC
2023 · 恢复+分类"] C --> I["GESCO
2023 · 噪声鲁棒扩散"] I --> J["DiffJSCC
2024 · 扩散增强"] I --> K["Gen-SC
2024 · 文本→图像"] J --> L["实时生成式 SC
2025+ · Consistency Models"] K --> L
跨方法交叉发现
架构选择与生成模型存在协同效应:WITT 证明 Transformer 在高分辨率上优于 CNN,而 DiffJSCC 证明扩散模型可以进一步提升 JSCC 的感知质量。一个自然的问题是:如果将 WITT 的 Transformer 编码器与 DiffJSCC 的扩散增强器结合,是否能在高分辨率 + 低 SNR 下同时获得 Transformer 的特征提取优势和扩散模型的生成优势?目前没有论文同时验证这两个方向。
压缩率与生成质量存在非线性关系:Gen-SC 用 99% 压缩率(文本)仍能保持 80% 语义准确率,而 DiffJSCC 在 $ ho$=1/384(极低码率)下 FID 仍为 117.9。这说明生成模型可以在极低信息量下"脑补"大量细节,但脑补的细节可能与原始图像不一致(hallucination)。压缩率与生成质量之间不是线性关系,而是存在一个"语义阈值"——只要传输的信息量超过这个阈值,生成模型就能重建出语义一致的图像。
开放问题
1. 实时性:扩散模型的延迟瓶颈
扩散模型多步去噪延迟高(50 步 ≈ 秒级),难以满足实时传输需求(如视频通话、自动驾驶)。Consistency Models、LCM 等一步生成技术正在缩小这个差距,但在语义通信场景中的验证还不充分。核心问题是:一步生成能否保持足够的语义保真度?
2. 泛化信道:从 AWGN 到真实环境
现有工作主要在 AWGN 信道验证。实际场景涉及频率选择性衰落、多径效应、非高斯噪声(脉冲噪声、工业电磁干扰等)。DiffJSCC 的 synthesis 报告明确指出:"标准实验主要是 AWGN/Rayleigh,缺少工业电磁干扰、脉冲噪声、丢包信道"。这是一个巨大的研究空白。
3. 丢包处理:分组交换网络的挑战
大多数 DeepJSCC 假设连续传输,未考虑分组交换网络中的丢包。在 TCP/UDP 传输中,丢包率可达 1–10%,这对 JSCC 系统提出了新的鲁棒性要求。
4. 安全性:语义通信的双刃剑
语义通信在低 SNR 下仍可解码——这意味着窃听者也能恢复语义信息。传统加密在比特层面保护数据,但语义信息可能在编码过程中泄露。这是一个需要物理层安全与语义安全联合考虑的问题。
5. 评估标准:缺乏统一基准
不同论文使用不同数据集(Kodak、DIV2K、CelebA、Cityscapes)、不同信道模型(AWGN、Rayleigh、Nakagami)、不同指标(PSNR、SSIM、LPIPS、FID、mIoU)。缺乏统一评估协议使得跨论文对比困难。
6. 工业场景:细微纹理的挑战
电缆缺陷检测等场景需要保留缺陷的细微纹理特征,而非仅语义层面可识别。DiffJSCC 的研究报告明确警告:"生成式结果可能 hallucinate,对电缆缺陷等细微异常纹理需谨慎"。这是一个生成式语义通信尚未解决的关键问题——如何在语义效率与细节保真之间取得平衡?
未来趋势
1. 生成模型轻量化
Consistency Models、LCM(Latent Consistency Models)等一步生成技术将扩散模型推理压缩到实时级别。2025 年的工作已经在探索将这些技术应用于语义通信。
2. 多模态语义通信
联合传输图像、文本、语音,利用跨模态互补增强鲁棒性。例如,当图像传输质量下降时,文本描述可以作为补充。
3. AI 原生 6G
语义通信作为 6G 空口核心技术,从物理层到应用层的全栈 AI 化。3GPP 已经开始讨论 AI/ML 在信道估计、波束管理等方面的应用。
4. 知识库驱动通信
发送端和接收端共享预训练知识库(如 CLIP、Stable Diffusion),只需传输语义索引或微小修正量。Gen-SC 已经验证了这条路的可行性。
5. 任务导向通信
从"传输图像"到"传输任务结果"。例如,在自动驾驶场景中,接收端只需要知道"前方有行人",而不需要完整的图像像素。这将通信目标从"重建"转向"决策"。
受干扰环境下的图像压缩与传输正经历从"分离编码"到"端到端联合编码"再到"生成式语义通信"的范式转变。DeepJSCC 证明了端到端学习的优越性,WITT 展示了 Transformer 在高分辨率场景的优势,而 GESCO、DiffJSCC、Gen-SC 则将扩散模型引入通信领域,接收端从"恢复"变为"生成"。
但这条路并非坦途。实时性、泛化性、安全性、评估标准化——每一个都是悬而未决的挑战。对于工业检测等具体应用,保留任务关键的细微特征仍是核心难题。未来的通信系统可能不再传输"图像",而是传输"语义"——但如何确保语义不丢失关键细节,将是这一范式能否落地的关键。
参考来源
- Bourtsoulatze et al. "Deep Joint Source-Channel Coding for Wireless Image Transmission." IEEE TCOM, 2019.
- Kurka & Gündüz. "DeepJSCC-f: Deep Joint Source-Channel Coding of Images with Feedback." IEEE JSAIT, 2020.
- Sun et al. "Adaptive Information Bottleneck Guided Joint Source-Channel Coding for Image Transmission." 2022.
- Yang et al. "WITT: A Wireless Image Transmission Transformer for Semantic Communications." ICASSP, 2023.
- Zhang et al. "SCAN: Semantic Communication with Adaptive Channel Feedback." 2023.
- Lyu et al. "Deep JSCC Multi-task: Joint Source-Channel Coding for Multi-task Learning." 2023.
- Grassucci et al. "Generative Semantic Communication: Diffusion Models Beyond Bit Error." ICASSP, 2023.
- Yang et al. "Diffusion-Aided Joint Source Channel Coding for High Realism Wireless Image Transmission." IEEE TMLCN, 2024.
- Wei et al. "Language-oriented Semantic Communication for Image Transmission with Fine-Tuned Diffusion Model." 2024.
- Yuan et al. "Gen-SC Multi-task: Generative Semantic Communication with Multi-task Learning." 2024.
- GESCO — Code (GitHub)
- DiffJSCC — Code (GitHub)
- WITT — Code (GitHub)
本文是图像压缩专题(五),承接专题(四)的受干扰环境问题,并进一步展开 JSCC、信道自适应与生成式语义通信。完整目录见 图像压缩系列总览。