图像压缩系列总览：从传统编码到学习式与生成式压缩

2026/05/20 13:21:39·2026/06/16 22:25:00

image-compression learned-compression generative-compression tokenizer survey

Introduction · 研究说明

关于这个系列

2017 年，Ballé et al. 发表 Variational Image Compression with a Scale Hyperprior，将 VAE 框架与超先验（hyperprior）引入端到端图像压缩，开启了学习式压缩（Learned Image Compression）的系统性研究。此后不到十年，该领域经历了从超越 VVC 到生成式压缩再到 Token-based 路线与 LLM 交叉的剧烈演化。

这个总览页组织图像压缩 subcategory 的完整研究线索：四条主线（熵模型演化、生成式压缩、Token-based 压缩、超低码率压缩）、关键论文索引、研究资源、开放问题以及后续课题规划。每条主线对应一篇独立的 org-roam 深度笔记，这里提供总入口和交叉导航。

🔬 子领域

排序：

1948 — 至今

图像压缩基础系列总览

从信息论到 JPEG/DCT、小波变换、现代格式（WebP/AVIF）、视频编码（H.264→HEVC→AV1），再到 ML 压缩入门。7 篇系列覆盖 70+ 年技术演进。

信息论基础 · 无损压缩（PNG）
JPEG/DCT · 小波/JPEG2000
WebP/AVIF · H.264/HEVC/AV1

2017 — 2026

图像压缩专题（一）：熵模型演化

从 Ballé Scale Hyperprior 到 Mamba SSM 与 HPCM-1B Scaling Law，学习式压缩最核心的技术主线。

Hyperprior → AR Context → Checkerboard
Transformer / Mamba 熵模型
压缩 Scaling Law

2019 — 2026

图像压缩专题（二）：生成式压缩

GAN → Diffusion → One-Step Diffusion，感知质量的范式变迁。OneDC / CoD-Lite 实现 60FPS 实时解码。

HiFiC / PerCo / OneDC
R-D-P 三角权衡
单步扩散与幻觉问题

2017 — 2026

图像压缩专题（三）：Token-based 压缩

VQ-VAE → 视觉 Tokenizer，与 LLM 的「万物皆可 tokenize」范式天然对接。

TiTok 1D Tokenizer
ALIT 自适应长度
AR-VFM 压缩

2019 — 2026

图像压缩专题（四）：受干扰环境下的压缩与传输

DeepJSCC、语义通信、扩散模型抗噪声训练——当压缩遇上信道噪声。

DeepJSCC / AIB-JSCC
扩散模型 + 语义通信
信道鲁棒性

2018 — 2026

图像压缩专题（五）：受干扰图像传输

从 DeepJSCC 到 WITT、DiffJSCC、Gen-SC，系统梳理联合信源信道编码与生成式语义通信。

联合信源信道编码
信道自适应与 Transformer
生成式语义通信

2023 — 2026

图像压缩专题（六）：超低码率生成式压缩

≤0.05 bpp 极端约束下的生成式方法，双分支架构与残差扩散。

DLF / MRIDC / HDCompression
ResULIC 语义残差
AEIC 轻量编码器

2021 — 2026

图像压缩专题（七）：零样本视频压缩

DCVC 条件编码、GVCC 零镜头视频压缩、NVC-1B 十亿参数视频压缩。

DCVC / DCVC-FM
GVCC 零镜头
NVC-1B Scaling

红外压缩 · sub_id 3000–3599

图像压缩专题（八）：红外图像压缩

从热辐射成像、红外数据集、DWT/JPEG2000/Huf-RLC，到学习式、多模态与任务驱动红外压缩。4 篇正文 + 5 篇论文精读。

系列总览 Hub · sub_id 3000
正文（一）–（四）· sub_id 3100–3130
精读 ×5 · sub_id 3500–3540

文章关系图

43 篇文章 · 62 条连接

🧭 技术路线

2017 — 2026

Hyperprior → 熵模型演化

从 Ballé 的 Scale Hyperprior 到 Minnen 的 AR Context、Cheng 的 Channel-Conditional、Checkerboard 并行化、Transformer 熵模型，再到 Mamba SSM 和 HPCM-1B Scaling Law。这是学习式压缩最核心、最持续的技术线索。

关键问题：Mamba/SSM 能否完全替代 Transformer 做熵建模？压缩 Scaling Law 的极限在哪里？

Scale Hyperprior (Ballé 2018)
Joint AR + Hyperprior (Minnen 2018)
Checkerboard CCM (He 2021)
ELIC Uneven Grouping (He 2022)
MambaIC / CMIC (2025)
HPCM-1B Scaling Law (2025)

2019 — 2026

GAN → Diffusion → One-Step

HiFiC 证明 GAN 在极低码率下的感知优势；扩散模型将感知质量推向"完美真实"；OneDC/StableCodec/CoD-Lite 在 2025 年将扩散解码从 50 步压缩到 1 步，实现实时级解码（60 FPS）。

关键问题：One-Step Diffusion 的理论基础是什么？幻觉问题如何解决？

HiFiC (Mentzer 2020)
CDC 条件扩散压缩 (Yang & Mandt 2024)
DDCM 扩散代码簿压缩生成 (Ohayon et al. 2025)
PerCo (Careil 2023)
OneDC / StableCodec / OSCAR (2025)
CoD-Lite 实时 60FPS (2025)
Apple PICO 实用感知压缩 (2024)

2017 — 2026

VQ-VAE → 视觉 Tokenizer

与 1D Visual Tokenizer 研究线深度交叉。TiTok 将 256×256 图像量化为 32 个 1D token；AR-VFM 直接用预训练自回归模型做压缩；ALIT 实现自适应长度 token 分配。Token-based 压缩与 LLM 的"万物皆可 tokenize"范式天然对接。

关键问题：压缩专用 tokenizer vs 通用 tokenizer 的差距有多大？AR token 生成的速度瓶颈如何突破？

VQGAN (Esser 2021)
TiTok 1D Tokenizer (ByteDance 2024)
ALIT 自适应长度 (ICLR 2025)
GLC 生成式 Latent Coding (2024)
AR-VFM for Compression (2025)
RDVQ 可微 VQ (CVPR 2026)

2023 — 2026

超低码率生成式压缩

在 ≤0.05 bpp 甚至 ≤0.01 bpp 的极端约束下，生成式方法是唯一能维持视觉质量的路线。双分支架构（语义+细节）成为主流，残差扩散和单步扩散显著降低解码开销。

关键问题：R-D-P 三角在超低码率下如何权衡？部署友好度与质量如何平衡？

DLF 双分支 Latent Fusion (2025)
MRIDC 多分辨率 (2025)
HDCompression 混合扩散 (2025)
ResULIC 语义残差 (2025)
AEIC 轻量编码器 (2026)

红外压缩 · sub_id 3000–3999

热辐射成像 → 任务驱动压缩

红外压缩不是普通灰度图压缩：它要同时保留辐射/温度结构、小目标、夜间与恶劣天气下的识别信息，并兼顾边缘实时性。该系列独占 3000–3999 编号段，后续 CCEM、ARWNet、RGB-IR 联合压缩都放入此段。

关键问题：红外压缩应优化 PSNR/SSIM，还是检测、测温、小目标保持与跨模态融合？

红外图像压缩调研 · sub_id 3000
Huf-RLC 红外线扫图像压缩 · sub_id 3010
CCEM 小目标-aware 压缩 · 计划 sub_id 3020

📅 关键里程碑

2017

Ballé et al. — End-to-end Optimized Image Compression，首次将 VAE 引入端到端图像压缩

2018

Ballé — Scale Hyperprior (ICLR) ★ 奠基性工作，几乎所有后续工作的基础
Minnen — Joint AR + Hyperprior (NeurIPS)，空间自回归上下文联合建模

2019

Blau & Michaeli — Rate-Distortion-Perception Tradeoff (ICML)，三者不可兼得的理论证明
Agustsson — GAN 极端压缩 (ICCV)

2020

HiFiC (NeurIPS) — GAN + 端到端压缩里程碑，用户研究证明感知优势
Cheng — GMM + Channel-Conditional AR

2021

Checkerboard CCM (CVPR) — 并行化解码关键突破
DCVC (ICLR) — 条件编码范式转换

2022

ELIC (CVPR) — 不均匀分组空间-通道上下文，超越 VVC 4:4:4
Contextformer / Entroformer — Transformer 熵模型

2023–24

PerCo — 超低码率 Diffusion (ICLR 2023)
DCVC-FM — 特征调制 (CVPR 2024)
TiTok — 1D Tokenizer (ByteDance)
DiffEIC — 特征引导 + 扩散先验

2025

One-Step Diffusion 爆发：OneDC / StableCodec / OSCAR / DiffO
Mamba SSM 入场：MambaIC / CMIC (CVPR)
HPCM-1B — 压缩 Scaling Law 首次验证 (ICCV)
CoD-Lite — 首个实时扩散压缩 60 FPS
ALIT — 自适应长度 token (ICLR)

2026

NVC-1B — 10 亿参数视频压缩 (TPAMI)
DiT-IC — Diffusion Transformer 压缩 (CVPR)
RDVQ — 可微 VQ (CVPR)
Turbo-DDCM — 零样本扩散 (ICLR)

📚 研究资源

资源	类型	说明
cshw2021 论文列表	论文索引	西安交大维护，200+ 篇论文，按会议/年份分类
CompressAI	代码库	PyTorch 标准库，20+ 预训练模型，评估工具
tensorflow/compression	代码库	Google 官方压缩库，含 HiFiC 实现
microsoft/DCVC	代码库	微软 DCVC/DCVC-FM 实现
MambaIC	代码库	CVPR 2025 Mamba SSM 压缩实现
Kodak (24张)	Benchmark	RD 性能对比的事实标准
CLIC Challenge	Benchmark	每年 CVPR/NeurIPS 挑战赛
NIC-RobustBench	Toolkit	神经图像压缩鲁棒性分析工具包 (ACMMM 2025)
SCID-Compress900	Dataset	4K/1080P 屏幕内容图像数据集 (ACMMM 2025)

评估指标

RD 优化：PSNR、MS-SSIM、BD-Rate。感知质量：LPIPS、FID、NIQE。用户研究（HiFiC 首次引入）。生成式压缩方法应同时报告 RD 指标和感知指标。

🗺️ 推荐阅读路径

路径一：从零理解 Hyperprior 主线

Ballé 2017 → Ballé 2018 Hyperprior → Minnen 2018 AR+HP → Cheng 2020 Channel AR → Checkerboard 2021 → ELIC 2022 → MambaIC 2025。这条路径覆盖熵模型从无到有的完整演化，适合刚进入该领域的研究者。

路径二：理解生成式压缩的核心思想

Blau & Michaeli R-D-P 理论 (2019) → HiFiC (2020) → PerCo (2023) → OneDC (2025) → CoD-Lite (2025)。重点理解 Rate-Distortion-Perception 三角和 One-Step Diffusion 的工程突破。

路径三：Token-based 与 LLM 交叉

VQ-VAE (2017) → VQGAN (2021) → TiTok (2024) → ALIT (2025) → AR-VFM for Compression (2025)。这条路径与 1D Visual Tokenizer 研究线深度交叉，适合对 LLM 与视觉 tokenizer 感兴趣的研究者。

路径四：工业落地与实用化

Apple PICO (2024) → CoD-Lite 60FPS (2025) → AEIC 轻量编码器 (2026)。关注编码速度、解码延迟、跨平台兼容性、硬件部署等工程维度。

📋 待研究专题

专题	状态	优先级
红外压缩系列：CCEM / ARWNet / RGB-IR 联合压缩精读（sub_id 3020–3999）	进行中	高
OneDC / StableCodec 深度论文精读	待研究	高
TiTok 1D Tokenizer 深度论文精读	待研究	高
HPCM-1B 压缩 Scaling Law 精读	待研究	高
MambaIC SSM 熵模型精读	待研究	中
Checkerboard CCM 精读	待研究	中
ELIC 精读	待研究	中
HiFiC 精读	待研究	中
GLC 生成式 Latent Coding 精读	待研究	中
熵模型演化 HTML blog 生成	待研究	中
生成式压缩 HTML blog 生成	待研究	中
Token-based 压缩 HTML blog 生成	待研究	中
论文关键图提取（架构图、对比表）	待研究	中
语义一致性约束的扩散压缩（反幻觉）	待研究	低
压缩专用 vs 通用 Tokenizer 对比研究	待研究	低

🏛️ 关键机构

机构	代表人物	核心贡献
Google Brain / DeepMind	Ballé, Minnen, Johnston, Agustsson, Mentzer	几乎所有奠基性架构，tensorflow/compression
华为诺亚方舟 / 北大	Dailan He, Chuanmin Jia, Feng Wu	Checkerboard, ELIC
北大 / 微软亚研院	Zhan Ma, Dong Liu, Li Li	DCVC 系列, HPCM, NVC-1B
ByteDance	TiTok 团队	TiTok 1D Tokenizer, MAGVIT, GLC
Apple	PICO 团队	实用感知压缩 + 跨平台
中科大	Fenghua Zeng 等	MambaIC (CVPR 2025)
上海交大	Haowei Wu 等	GLIC (GNN), S2CFormer, 论文列表维护