图像压缩系列总览
从 Hyperprior 到生成式压缩与视觉 Token
Ballé 2018 → HiFiC → OneDC → TiTok:端到端学习式压缩的十年范式变迁
8子领域
60+核心论文
1948–2026时间跨度
21已有笔记
Introduction · 研究说明
关于这个系列
2017 年,Ballé et al. 发表 Variational Image Compression with a Scale Hyperprior,将 VAE 框架与超先验(hyperprior)引入端到端图像压缩,开启了学习式压缩(Learned Image Compression)的系统性研究。此后不到十年,该领域经历了从超越 VVC 到生成式压缩再到 Token-based 路线与 LLM 交叉的剧烈演化。
这个总览页组织图像压缩 subcategory 的完整研究线索:四条主线(熵模型演化、生成式压缩、Token-based 压缩、超低码率压缩)、关键论文索引、研究资源、开放问题以及后续课题规划。每条主线对应一篇独立的 org-roam 深度笔记,这里提供总入口和交叉导航。
🔬 子领域
排序:
2017 — 2026
- Hyperprior → AR Context → Checkerboard
- Transformer / Mamba 熵模型
- 压缩 Scaling Law
红外压缩 · sub_id 3000–3599
- 系列总览 Hub · sub_id 3000
- 正文(一)–(四)· sub_id 3100–3130
- 精读 ×5 · sub_id 3500–3540
文章关系图
43 篇文章 · 62 条连接
🧭 技术路线
2017 — 2026
Hyperprior → 熵模型演化
关键问题:Mamba/SSM 能否完全替代 Transformer 做熵建模?压缩 Scaling Law 的极限在哪里?
- Scale Hyperprior (Ballé 2018)
- Joint AR + Hyperprior (Minnen 2018)
- Checkerboard CCM (He 2021)
- ELIC Uneven Grouping (He 2022)
- MambaIC / CMIC (2025)
- HPCM-1B Scaling Law (2025)
2019 — 2026
GAN → Diffusion → One-Step
关键问题:One-Step Diffusion 的理论基础是什么?幻觉问题如何解决?
- HiFiC (Mentzer 2020)
- CDC 条件扩散压缩 (Yang & Mandt 2024)
- DDCM 扩散代码簿压缩生成 (Ohayon et al. 2025)
- PerCo (Careil 2023)
- OneDC / StableCodec / OSCAR (2025)
- CoD-Lite 实时 60FPS (2025)
- Apple PICO 实用感知压缩 (2024)
2017 — 2026
VQ-VAE → 视觉 Tokenizer
关键问题:压缩专用 tokenizer vs 通用 tokenizer 的差距有多大?AR token 生成的速度瓶颈如何突破?
- VQGAN (Esser 2021)
- TiTok 1D Tokenizer (ByteDance 2024)
- ALIT 自适应长度 (ICLR 2025)
- GLC 生成式 Latent Coding (2024)
- AR-VFM for Compression (2025)
- RDVQ 可微 VQ (CVPR 2026)
2023 — 2026
超低码率生成式压缩
关键问题:R-D-P 三角在超低码率下如何权衡?部署友好度与质量如何平衡?
- DLF 双分支 Latent Fusion (2025)
- MRIDC 多分辨率 (2025)
- HDCompression 混合扩散 (2025)
- ResULIC 语义残差 (2025)
- AEIC 轻量编码器 (2026)
红外压缩 · sub_id 3000–3999
热辐射成像 → 任务驱动压缩
关键问题:红外压缩应优化 PSNR/SSIM,还是检测、测温、小目标保持与跨模态融合?
- 红外图像压缩调研 · sub_id 3000
- Huf-RLC 红外线扫图像压缩 · sub_id 3010
- CCEM 小目标-aware 压缩 · 计划 sub_id 3020
📅 关键里程碑
2017
Ballé et al. — End-to-end Optimized Image Compression,首次将 VAE 引入端到端图像压缩
2018
Ballé — Scale Hyperprior (ICLR) ★ 奠基性工作,几乎所有后续工作的基础
Minnen — Joint AR + Hyperprior (NeurIPS),空间自回归上下文联合建模
Minnen — Joint AR + Hyperprior (NeurIPS),空间自回归上下文联合建模
2019
Blau & Michaeli — Rate-Distortion-Perception Tradeoff (ICML),三者不可兼得的理论证明
Agustsson — GAN 极端压缩 (ICCV)
Agustsson — GAN 极端压缩 (ICCV)
2020
HiFiC (NeurIPS) — GAN + 端到端压缩里程碑,用户研究证明感知优势
Cheng — GMM + Channel-Conditional AR
Cheng — GMM + Channel-Conditional AR
2021
Checkerboard CCM (CVPR) — 并行化解码关键突破
DCVC (ICLR) — 条件编码范式转换
DCVC (ICLR) — 条件编码范式转换
2022
ELIC (CVPR) — 不均匀分组空间-通道上下文,超越 VVC 4:4:4
Contextformer / Entroformer — Transformer 熵模型
Contextformer / Entroformer — Transformer 熵模型
2023–24
PerCo — 超低码率 Diffusion (ICLR 2023)
DCVC-FM — 特征调制 (CVPR 2024)
TiTok — 1D Tokenizer (ByteDance)
DiffEIC — 特征引导 + 扩散先验
DCVC-FM — 特征调制 (CVPR 2024)
TiTok — 1D Tokenizer (ByteDance)
DiffEIC — 特征引导 + 扩散先验
2025
One-Step Diffusion 爆发:OneDC / StableCodec / OSCAR / DiffO
Mamba SSM 入场:MambaIC / CMIC (CVPR)
HPCM-1B — 压缩 Scaling Law 首次验证 (ICCV)
CoD-Lite — 首个实时扩散压缩 60 FPS
ALIT — 自适应长度 token (ICLR)
Mamba SSM 入场:MambaIC / CMIC (CVPR)
HPCM-1B — 压缩 Scaling Law 首次验证 (ICCV)
CoD-Lite — 首个实时扩散压缩 60 FPS
ALIT — 自适应长度 token (ICLR)
2026
NVC-1B — 10 亿参数视频压缩 (TPAMI)
DiT-IC — Diffusion Transformer 压缩 (CVPR)
RDVQ — 可微 VQ (CVPR)
Turbo-DDCM — 零样本扩散 (ICLR)
DiT-IC — Diffusion Transformer 压缩 (CVPR)
RDVQ — 可微 VQ (CVPR)
Turbo-DDCM — 零样本扩散 (ICLR)
📚 研究资源
| 资源 | 类型 | 说明 |
|---|---|---|
| cshw2021 论文列表 | 论文索引 | 西安交大维护,200+ 篇论文,按会议/年份分类 |
| CompressAI | 代码库 | PyTorch 标准库,20+ 预训练模型,评估工具 |
| tensorflow/compression | 代码库 | Google 官方压缩库,含 HiFiC 实现 |
| microsoft/DCVC | 代码库 | 微软 DCVC/DCVC-FM 实现 |
| MambaIC | 代码库 | CVPR 2025 Mamba SSM 压缩实现 |
| Kodak (24张) | Benchmark | RD 性能对比的事实标准 |
| CLIC Challenge | Benchmark | 每年 CVPR/NeurIPS 挑战赛 |
| NIC-RobustBench | Toolkit | 神经图像压缩鲁棒性分析工具包 (ACMMM 2025) |
| SCID-Compress900 | Dataset | 4K/1080P 屏幕内容图像数据集 (ACMMM 2025) |
评估指标
RD 优化:PSNR、MS-SSIM、BD-Rate。感知质量:LPIPS、FID、NIQE。用户研究(HiFiC 首次引入)。生成式压缩方法应同时报告 RD 指标和感知指标。
🗺️ 推荐阅读路径
路径一:从零理解 Hyperprior 主线
路径二:理解生成式压缩的核心思想
路径三:Token-based 与 LLM 交叉
路径四:工业落地与实用化
📋 待研究专题
| 专题 | 状态 | 优先级 |
|---|---|---|
| 红外压缩系列:CCEM / ARWNet / RGB-IR 联合压缩精读(sub_id 3020–3999) | 进行中 | 高 |
| OneDC / StableCodec 深度论文精读 | 待研究 | 高 |
| TiTok 1D Tokenizer 深度论文精读 | 待研究 | 高 |
| HPCM-1B 压缩 Scaling Law 精读 | 待研究 | 高 |
| MambaIC SSM 熵模型精读 | 待研究 | 中 |
| Checkerboard CCM 精读 | 待研究 | 中 |
| ELIC 精读 | 待研究 | 中 |
| HiFiC 精读 | 待研究 | 中 |
| GLC 生成式 Latent Coding 精读 | 待研究 | 中 |
| 熵模型演化 HTML blog 生成 | 待研究 | 中 |
| 生成式压缩 HTML blog 生成 | 待研究 | 中 |
| Token-based 压缩 HTML blog 生成 | 待研究 | 中 |
| 论文关键图提取(架构图、对比表) | 待研究 | 中 |
| 语义一致性约束的扩散压缩(反幻觉) | 待研究 | 低 |
| 压缩专用 vs 通用 Tokenizer 对比研究 | 待研究 | 低 |
🏛️ 关键机构
| 机构 | 代表人物 | 核心贡献 |
|---|---|---|
| Google Brain / DeepMind | Ballé, Minnen, Johnston, Agustsson, Mentzer | 几乎所有奠基性架构,tensorflow/compression |
| 华为诺亚方舟 / 北大 | Dailan He, Chuanmin Jia, Feng Wu | Checkerboard, ELIC |
| 北大 / 微软亚研院 | Zhan Ma, Dong Liu, Li Li | DCVC 系列, HPCM, NVC-1B |
| ByteDance | TiTok 团队 | TiTok 1D Tokenizer, MAGVIT, GLC |
| Apple | PICO 团队 | 实用感知压缩 + 跨平台 |
| 中科大 | Fenghua Zeng 等 | MambaIC (CVPR 2025) |
| 上海交大 | Haowei Wu 等 | GLIC (GNN), S2CFormer, 论文列表维护 |
相关笔记
- 站内总览:图像压缩系列总览:从传统编码到学习式与生成式压缩
- 站内专题:图像压缩专题(一):熵模型演化,从 Hyperprior 到 Scaling Law
- 站内专题:图像压缩专题(二):生成式压缩,从 GAN 到 One-Step Diffusion
- 站内专题:图像压缩专题(三):Token-based 压缩,当视觉 Tokenizer 遇上信息论
- 站内专题:图像压缩专题(六):超低码率生成式压缩,语义、幻觉与可部署 Codec
- Org-roam: 图像压缩开放问题与课题池
- Org-roam: Ballé Scale Hyperprior(已有笔记)
- Org-roam: Minnen GMM + Attention(已有笔记)
- Org-roam: CoD-Lite 实时扩散压缩(已有笔记)
- Org-roam: Apple PICO 实用感知压缩(已有笔记)
- Org-roam: VQVAE Compression Investigation(已有笔记)
- Org-roam: AR-VFM for Compression(已有笔记)