ESC
输入关键词搜索文章
目录

图像压缩系列总览

从 Hyperprior 到生成式压缩与视觉 Token
Ballé 2018 → HiFiC → OneDC → TiTok:端到端学习式压缩的十年范式变迁
8子领域
60+核心论文
1948–2026时间跨度
21已有笔记
Introduction · 研究说明
关于这个系列

2017 年,Ballé et al. 发表 Variational Image Compression with a Scale Hyperprior,将 VAE 框架与超先验(hyperprior)引入端到端图像压缩,开启了学习式压缩(Learned Image Compression)的系统性研究。此后不到十年,该领域经历了从超越 VVC 到生成式压缩再到 Token-based 路线与 LLM 交叉的剧烈演化。

这个总览页组织图像压缩 subcategory 的完整研究线索:四条主线(熵模型演化、生成式压缩、Token-based 压缩、超低码率压缩)、关键论文索引、研究资源、开放问题以及后续课题规划。每条主线对应一篇独立的 org-roam 深度笔记,这里提供总入口和交叉导航。

🔬 子领域
排序:
1948 — 至今
从信息论到 JPEG/DCT、小波变换、现代格式(WebP/AVIF)、视频编码(H.264→HEVC→AV1),再到 ML 压缩入门。7 篇系列覆盖 70+ 年技术演进。
  • 信息论基础 · 无损压缩(PNG)
  • JPEG/DCT · 小波/JPEG2000
  • WebP/AVIF · H.264/HEVC/AV1
2017 — 2026
从 Ballé Scale Hyperprior 到 Mamba SSM 与 HPCM-1B Scaling Law,学习式压缩最核心的技术主线。
  • Hyperprior → AR Context → Checkerboard
  • Transformer / Mamba 熵模型
  • 压缩 Scaling Law
2019 — 2026
GAN → Diffusion → One-Step Diffusion,感知质量的范式变迁。OneDC / CoD-Lite 实现 60FPS 实时解码。
  • HiFiC / PerCo / OneDC
  • R-D-P 三角权衡
  • 单步扩散与幻觉问题
2017 — 2026
VQ-VAE → 视觉 Tokenizer,与 LLM 的「万物皆可 tokenize」范式天然对接。
  • TiTok 1D Tokenizer
  • ALIT 自适应长度
  • AR-VFM 压缩
2019 — 2026
DeepJSCC、语义通信、扩散模型抗噪声训练——当压缩遇上信道噪声。
  • DeepJSCC / AIB-JSCC
  • 扩散模型 + 语义通信
  • 信道鲁棒性
2018 — 2026
从 DeepJSCC 到 WITT、DiffJSCC、Gen-SC,系统梳理联合信源信道编码与生成式语义通信。
  • 联合信源信道编码
  • 信道自适应与 Transformer
  • 生成式语义通信
2023 — 2026
≤0.05 bpp 极端约束下的生成式方法,双分支架构与残差扩散。
  • DLF / MRIDC / HDCompression
  • ResULIC 语义残差
  • AEIC 轻量编码器
2021 — 2026
DCVC 条件编码、GVCC 零镜头视频压缩、NVC-1B 十亿参数视频压缩。
  • DCVC / DCVC-FM
  • GVCC 零镜头
  • NVC-1B Scaling
红外压缩 · sub_id 3000–3599
从热辐射成像、红外数据集、DWT/JPEG2000/Huf-RLC,到学习式、多模态与任务驱动红外压缩。4 篇正文 + 5 篇论文精读。
  • 系列总览 Hub · sub_id 3000
  • 正文(一)–(四)· sub_id 3100–3130
  • 精读 ×5 · sub_id 3500–3540

文章关系图

43 篇文章 · 62 条连接

🧭 技术路线
2017 — 2026
Hyperprior → 熵模型演化

从 Ballé 的 Scale Hyperprior 到 Minnen 的 AR Context、Cheng 的 Channel-Conditional、Checkerboard 并行化、Transformer 熵模型,再到 Mamba SSM 和 HPCM-1B Scaling Law。这是学习式压缩最核心、最持续的技术线索。

关键问题:Mamba/SSM 能否完全替代 Transformer 做熵建模?压缩 Scaling Law 的极限在哪里?

  • Scale Hyperprior (Ballé 2018)
  • Joint AR + Hyperprior (Minnen 2018)
  • Checkerboard CCM (He 2021)
  • ELIC Uneven Grouping (He 2022)
  • MambaIC / CMIC (2025)
  • HPCM-1B Scaling Law (2025)
2019 — 2026
GAN → Diffusion → One-Step

HiFiC 证明 GAN 在极低码率下的感知优势;扩散模型将感知质量推向"完美真实";OneDC/StableCodec/CoD-Lite 在 2025 年将扩散解码从 50 步压缩到 1 步,实现实时级解码(60 FPS)。

关键问题:One-Step Diffusion 的理论基础是什么?幻觉问题如何解决?

2017 — 2026
VQ-VAE → 视觉 Tokenizer

与 1D Visual Tokenizer 研究线深度交叉。TiTok 将 256×256 图像量化为 32 个 1D token;AR-VFM 直接用预训练自回归模型做压缩;ALIT 实现自适应长度 token 分配。Token-based 压缩与 LLM 的"万物皆可 tokenize"范式天然对接。

关键问题:压缩专用 tokenizer vs 通用 tokenizer 的差距有多大?AR token 生成的速度瓶颈如何突破?

  • VQGAN (Esser 2021)
  • TiTok 1D Tokenizer (ByteDance 2024)
  • ALIT 自适应长度 (ICLR 2025)
  • GLC 生成式 Latent Coding (2024)
  • AR-VFM for Compression (2025)
  • RDVQ 可微 VQ (CVPR 2026)
2023 — 2026
超低码率生成式压缩

在 ≤0.05 bpp 甚至 ≤0.01 bpp 的极端约束下,生成式方法是唯一能维持视觉质量的路线。双分支架构(语义+细节)成为主流,残差扩散和单步扩散显著降低解码开销。

关键问题:R-D-P 三角在超低码率下如何权衡?部署友好度与质量如何平衡?

  • DLF 双分支 Latent Fusion (2025)
  • MRIDC 多分辨率 (2025)
  • HDCompression 混合扩散 (2025)
  • ResULIC 语义残差 (2025)
  • AEIC 轻量编码器 (2026)
红外压缩 · sub_id 3000–3999
热辐射成像 → 任务驱动压缩

红外压缩不是普通灰度图压缩:它要同时保留辐射/温度结构、小目标、夜间与恶劣天气下的识别信息,并兼顾边缘实时性。该系列独占 3000–3999 编号段,后续 CCEM、ARWNet、RGB-IR 联合压缩都放入此段。

关键问题:红外压缩应优化 PSNR/SSIM,还是检测、测温、小目标保持与跨模态融合?

📅 关键里程碑
2017
Ballé et al. — End-to-end Optimized Image Compression,首次将 VAE 引入端到端图像压缩
2018
Ballé — Scale Hyperprior (ICLR) ★ 奠基性工作,几乎所有后续工作的基础
Minnen — Joint AR + Hyperprior (NeurIPS),空间自回归上下文联合建模
2019
Blau & Michaeli — Rate-Distortion-Perception Tradeoff (ICML),三者不可兼得的理论证明
Agustsson — GAN 极端压缩 (ICCV)
2020
HiFiC (NeurIPS) — GAN + 端到端压缩里程碑,用户研究证明感知优势
Cheng — GMM + Channel-Conditional AR
2021
Checkerboard CCM (CVPR) — 并行化解码关键突破
DCVC (ICLR) — 条件编码范式转换
2022
ELIC (CVPR) — 不均匀分组空间-通道上下文,超越 VVC 4:4:4
Contextformer / Entroformer — Transformer 熵模型
2023–24
PerCo — 超低码率 Diffusion (ICLR 2023)
DCVC-FM — 特征调制 (CVPR 2024)
TiTok — 1D Tokenizer (ByteDance)
DiffEIC — 特征引导 + 扩散先验
2025
One-Step Diffusion 爆发:OneDC / StableCodec / OSCAR / DiffO
Mamba SSM 入场:MambaIC / CMIC (CVPR)
HPCM-1B — 压缩 Scaling Law 首次验证 (ICCV)
CoD-Lite — 首个实时扩散压缩 60 FPS
ALIT — 自适应长度 token (ICLR)
2026
NVC-1B — 10 亿参数视频压缩 (TPAMI)
DiT-IC — Diffusion Transformer 压缩 (CVPR)
RDVQ — 可微 VQ (CVPR)
Turbo-DDCM — 零样本扩散 (ICLR)
📚 研究资源
资源类型说明
cshw2021 论文列表论文索引西安交大维护,200+ 篇论文,按会议/年份分类
CompressAI代码库PyTorch 标准库,20+ 预训练模型,评估工具
tensorflow/compression代码库Google 官方压缩库,含 HiFiC 实现
microsoft/DCVC代码库微软 DCVC/DCVC-FM 实现
MambaIC代码库CVPR 2025 Mamba SSM 压缩实现
Kodak (24张)BenchmarkRD 性能对比的事实标准
CLIC ChallengeBenchmark每年 CVPR/NeurIPS 挑战赛
NIC-RobustBenchToolkit神经图像压缩鲁棒性分析工具包 (ACMMM 2025)
SCID-Compress900Dataset4K/1080P 屏幕内容图像数据集 (ACMMM 2025)

评估指标

RD 优化:PSNR、MS-SSIM、BD-Rate。感知质量:LPIPS、FID、NIQE。用户研究(HiFiC 首次引入)。生成式压缩方法应同时报告 RD 指标和感知指标。

🗺️ 推荐阅读路径
路径一:从零理解 Hyperprior 主线

Ballé 2017 → Ballé 2018 Hyperprior → Minnen 2018 AR+HP → Cheng 2020 Channel AR → Checkerboard 2021 → ELIC 2022 → MambaIC 2025。这条路径覆盖熵模型从无到有的完整演化,适合刚进入该领域的研究者。

路径二:理解生成式压缩的核心思想

Blau & Michaeli R-D-P 理论 (2019) → HiFiC (2020) → PerCo (2023) → OneDC (2025) → CoD-Lite (2025)。重点理解 Rate-Distortion-Perception 三角和 One-Step Diffusion 的工程突破。

路径三:Token-based 与 LLM 交叉

VQ-VAE (2017) → VQGAN (2021) → TiTok (2024) → ALIT (2025) → AR-VFM for Compression (2025)。这条路径与 1D Visual Tokenizer 研究线深度交叉,适合对 LLM 与视觉 tokenizer 感兴趣的研究者。

路径四:工业落地与实用化

Apple PICO (2024) → CoD-Lite 60FPS (2025) → AEIC 轻量编码器 (2026)。关注编码速度、解码延迟、跨平台兼容性、硬件部署等工程维度。

📋 待研究专题
专题状态优先级
红外压缩系列:CCEM / ARWNet / RGB-IR 联合压缩精读(sub_id 3020–3999)进行中
OneDC / StableCodec 深度论文精读待研究
TiTok 1D Tokenizer 深度论文精读待研究
HPCM-1B 压缩 Scaling Law 精读待研究
MambaIC SSM 熵模型精读待研究
Checkerboard CCM 精读待研究
ELIC 精读待研究
HiFiC 精读待研究
GLC 生成式 Latent Coding 精读待研究
熵模型演化 HTML blog 生成待研究
生成式压缩 HTML blog 生成待研究
Token-based 压缩 HTML blog 生成待研究
论文关键图提取(架构图、对比表)待研究
语义一致性约束的扩散压缩(反幻觉)待研究
压缩专用 vs 通用 Tokenizer 对比研究待研究
🏛️ 关键机构
机构代表人物核心贡献
Google Brain / DeepMindBallé, Minnen, Johnston, Agustsson, Mentzer几乎所有奠基性架构,tensorflow/compression
华为诺亚方舟 / 北大Dailan He, Chuanmin Jia, Feng WuCheckerboard, ELIC
北大 / 微软亚研院Zhan Ma, Dong Liu, Li LiDCVC 系列, HPCM, NVC-1B
ByteDanceTiTok 团队TiTok 1D Tokenizer, MAGVIT, GLC
ApplePICO 团队实用感知压缩 + 跨平台
中科大Fenghua Zeng 等MambaIC (CVPR 2025)
上海交大Haowei Wu 等GLIC (GNN), S2CFormer, 论文列表维护
相关笔记
  • 站内总览:图像压缩系列总览:从传统编码到学习式与生成式压缩
  • 站内专题:图像压缩专题(一):熵模型演化,从 Hyperprior 到 Scaling Law
  • 站内专题:图像压缩专题(二):生成式压缩,从 GAN 到 One-Step Diffusion
  • 站内专题:图像压缩专题(三):Token-based 压缩,当视觉 Tokenizer 遇上信息论
  • 站内专题:图像压缩专题(六):超低码率生成式压缩,语义、幻觉与可部署 Codec
  • Org-roam: 图像压缩开放问题与课题池
  • Org-roam: Ballé Scale Hyperprior(已有笔记)
  • Org-roam: Minnen GMM + Attention(已有笔记)
  • Org-roam: CoD-Lite 实时扩散压缩(已有笔记)
  • Org-roam: Apple PICO 实用感知压缩(已有笔记)
  • Org-roam: VQVAE Compression Investigation(已有笔记)
  • Org-roam: AR-VFM for Compression(已有笔记)