ESC
输入关键词搜索文章
目录

Hyperprior 之后

学习式图像压缩熵模型的十年演化
Factorized → Hyperprior → AR → Checkerboard → Transformer → Mamba → Scaling Law
11演化阶段
8年跨度
3架构范式
Chapter 1 · 核心问题
为什么熵模型决定压缩率

端到端学习式图像压缩的标准框架(Ballé 2016/2017)由四步组成:分析变换 g_a 将图像编码为潜在表示 y,量化器将 y 离散化为 ŷ,熵编码器将 ŷ 压缩为比特流,合成变换 g_s 将 ŷ 解码为重建图像 x̂。

训练目标是最小化 Rate-Distortion 损失 \(L = R + \lambda D\)。其中 \(D\)(失真)由分析/合成变换网络决定,而 \(R\)(比特率)由熵模型决定。具体地,\(R = -\log_2 p(\hat{y})\),即比特率等于潜在表示在熵模型下的负对数似然。

核心洞察:熵模型估计的 \(p(\hat{y})\) 越精准,同样失真下所需的比特数越少。熵模型的质量直接决定压缩效率。

这里有一个容易被忽略的细节:熵模型并不直接改变重建图像,它改变的是算术编码器给每个 latent 符号分配的码长。如果概率估计偏低,符号会被分配更长的码字;如果概率估计贴近真实分布,平均码长接近 Shannon 下界。因此,熵模型的改进通常表现为 BD-Rate 下降,而非单张图视觉效果的显著变化。

从信息论看熵模型

真实 latent 分布记为 \(q(\hat{y})\),模型估计分布记为 \(p(\hat{y})\)。平均码长对应交叉熵 \(H(q,p)=H(q)+D_{KL}(q\Vert p)\)。其中 \(H(q)\) 是数据本身无法绕开的熵,真正可优化的是 KL 项。所有后续工作,本质上都在减少这个概率模型错配。

问题在于:量化后的潜在表示 ŷ 的元素之间并非独立。相邻空间位置存在强相关性,不同通道之间也存在统计依赖。如何建模这些依赖,是熵模型演化的核心线索。

Chapter 2 · Phase 1–2
Factorized Prior 与 Scale Hyperprior

Phase 1: Factorized Prior(Ballé 2017)

最简单的假设:ŷ 的各元素独立同分布。每个元素用一个非参数概率分布(由卷积网络预测)建模。这是一个粗略但高效的起点——完全并行,解码速度极快。

代价显而易见:latent 元素之间的空间相关性被完全忽略,导致熵估计偏高,比特率浪费严重。

Phase 2: Scale Hyperprior(Ballé 2018, ICLR)★★★

Ballé Scale Hyperprior 架构
Ballé et al. Scale Hyperprior 架构。超先验网络 h_a/h_s 传递额外的边信息 z,用于预测每个潜在元素的高斯尺度参数 σ

Ballé 的核心创新:引入第二层 VAE,也就是超先验(Hyperprior)。在分析变换 \(g_a\) 之后,再接一个超分析变换 \(h_a\),将潜在表示 \(y\) 压缩为超先验 \(z\)\(z\) 作为边信息单独编码传输。

在解码端,超合成变换 \(h_s\)\(z\) 预测每个潜在元素的高斯分布参数(\(\sigma\)),从而将 \(p(y_i)\) 从固定先验提升为条件先验 \(p(y_i \mid z)\)

这一架构引出了一个极其优雅的层次化概率模型:超先验 \(z\) 捕获全局的、粗粒度的空间依赖,例如“这片区域纹理丰富,那片区域平坦”,而主 latent \(y\) 在给定 \(z\) 的条件下近似独立。

为什么要额外传输 z?

直觉上,发送 \(z\) 会增加码率。但如果 \(z\) 能显著降低 \(y\) 的不确定性,总代价 \(R_y + R_z\) 反而下降。这和视频编码里先传运动信息、再传残差的思想相似:边信息本身花费比特,但它让主体信号更容易编码。

贡献:引用 4000+,几乎所有后续工作的基础架构。Hyperprior 的思想(用额外信息条件化主 latent 的概率估计)贯穿了整个演化过程。
Chapter 3 · Phase 3
Joint AR + Hyperprior:从全局到局部
Minnen Joint AR+Hyperprior 架构
Minnen et al. Joint AR + Hyperprior 架构。在超先验基础上加入空间自回归上下文模型

Minnen et al.(NeurIPS 2018)的洞察:超先验捕获全局依赖,但局部依赖仍然被忽略。解决方案:在超先验基础上加入空间自回归(Autoregressive)上下文。

概率模型从 \(p(y_i \mid z)\) 提升为 \(p(y_i \mid y_{。每个元素的概率不仅依赖超先验 \(z\),还依赖所有已解码的先前元素。

同时,将单高斯似然替换为离散化高斯混合模型(GMM),进一步提高了概率估计的灵活性。GMM 的意义在于允许 latent 分布呈现多峰结构,而不是强行用一个均值和尺度解释所有局部模式。

AR 上下文的收益来自哪里

空间 AR 模型利用的是“已经解码的邻居”。在自然图像中,边缘、纹理和局部重复结构会让相邻 latent 呈现强条件依赖。给定左上区域后,当前符号的不确定性下降,码长随之下降。这就是 AR 能显著提升 RD 性能的根本原因。

速度瓶颈

AR 解码是严格串行的:对于 H×W 大小的 latent,需要 H×W 步顺序解码。在实际分辨率下,这意味着极慢的解码速度。这个问题成为了后续 5 年的核心技术驱动力。

Chapter 4 · Phase 4–6
从 AR 到并行:三条路径

Phase 4: Channel-Conditional AR(Cheng 2020)★★

核心洞察:latent 的通道间相关性远强于空间相关性。将 AR 从像素级改为通道级——先解码前面的通道组,再用于预测后面的通道组。

通道数(通常 192 或 320)远小于 H×W,因此解码步数从 H×W 降低到 C。速度大幅提升,RD 性能损失极小。

Phase 5: Checkerboard Context Model(He 2021, CVPR)★★

Checkerboard CCM 的核心思想:将空间位置分为「棋盘格」两组,先解码所有"黑格",再并行解码所有"白格"。两组之间只需两步即可完成解码,大幅并行化,RD 性能接近完整 AR。

更激进的洞察:空间上下文不一定需要严格的光栅扫描顺序。将空间位置分为"棋盘格"两组——先解码所有"黑格",再并行解码所有"白格"。

两组之间只需两步(而非 H×W 步),解码速度提升数倍。RD 性能接近完整 AR,是压缩实用化的关键技术。

Phase 6: ELIC — Uneven Grouped Space-Channel Context(He 2022, CVPR)★★

ELIC channel-conditioned entropy model
ELIC Channel-Conditioned Entropy Model。latent 被拆成多个通道组,上游通道组作为下游通道组的条件上下文,不同组承担不同信息密度

将通道分组与空间上下文结合,利用 latent 中能量聚集的特性——前面的通道包含更多信息,后面的通道信息较少。不均匀分组策略:前面通道组少但包含更多上下文,后面通道组多但依赖更少。

在 VVC 4:4:4 配置下 BD-Rate 降低 7.88%。ELIC 的本质是承认 latent 通道并不等价:高能量通道应被更细致地建模,低能量通道可以更粗略地并行处理。

并行化的本质

Phase 4–6 解决的是同一个问题:如何减少 AR 的串行依赖步数。三条路径对应三个维度——通道维度(Cheng)、空间维度(Checkerboard)、空间-通道联合维度(ELIC)。每条路径都保留了大量上下文信息,同时将解码步数从 O(HW) 降低到 O(C) 或 O(2)。

Chapter 5 · Phase 7–8
Transformer:长程依赖的全局建模

Phase 7: Transformer Entropy Model(2022)

Entroformer(2022)和 Contextformer(ECCV 2022)将多头注意力机制引入熵建模。核心思想:注意力天然可以捕获任意距离的依赖,不受 AR 扫描顺序的限制。

Contextformer 将标准多头注意力推广为空间-通道联合注意力,同时建模两种依赖。

复杂度问题

注意力机制的 O(n²) 复杂度是硬伤。对于高分辨率图像,latent 的空间维度 n 可能很大,注意力的计算和存储开销成为瓶颈。

Phase 8: TCM — Transformer-CNN Mixture(2023, CVPR)

混合架构:CNN 处理局部特征(高效),Transformer 捕获全局依赖(精准)。这种设计平衡了局部建模与全局注意力。

从写作线索上看,Transformer 进入熵模型并不是为了替代所有卷积,而是为了解决卷积上下文模型的感受野上限。局部 CNN 能快速捕获边缘、纹理、重复块;全局注意力则补足远距离结构依赖,例如天空大面积平滑区域、建筑立面重复纹理、前景物体与背景之间的统计关系。

模块擅长建模主要代价适合位置
CNN局部连续性、边缘、纹理长程依赖弱analysis/synthesis transform、局部 entropy parameters
Transformer远距离依赖、全局结构O(n²) 计算与显存低分辨率 latent、窗口化上下文
Hybrid局部与全局折中结构复杂、调参成本高实用神经 codec 的主干
Chapter 6 · Phase 9–10
Mamba SSM:线性复杂度的全局感受野
MambaIC 架构
MambaIC (CVPR 2025):状态空间模型实现线性复杂度的全局依赖建模

Phase 9: MambaIC / CMIC(2025, CVPR)★★★

2024–2025 年最活跃的新兴方向。状态空间模型(SSM)提供了线性复杂度的全局感受野,理论上兼具 CNN 的高效和 Transformer 的全局建模能力。

MambaIC 相比 CNN-Transformer 混合架构降低了 63.9% 的计算量,同时 RD 性能有所提升。CMIC 进一步引入内容感知机制,根据图像局部复杂度自适应调整建模粒度。

SSM 路线的关键不是“更换一个 backbone”这么简单,而是给熵模型提供一种新的序列化方式:把二维 latent 展平成若干扫描序列,通过选择性状态更新捕获长程依赖。它避免了注意力矩阵的二次复杂度,又保留了跨区域信息传递能力。

判断:Mamba/SSM 的吸引力主要在高分辨率和实时场景。若目标是极限 RD 性能,Transformer 仍可能有优势;若目标是压缩系统部署,SSM 的线性复杂度更有工程价值。

Phase 10: Dictionary-based Entropy Model(2025, CVPR)

全新思路:通过可学习字典(codebook)从训练集提取典型结构,辅助熵模型预测。不再依赖参数化的概率分布假设,而是用数据驱动的方式直接从数据中学习先验知识。

字典式熵模型可以理解为“把常见 latent 模式显式存起来”。当局部 latent 与某些字典原型接近时,模型可以借助原型给出更尖锐的概率分布。这条路线与传统 GMM 不同:GMM 假设概率分布的形状,字典方法更接近检索式先验或记忆增强模型。

Chapter 7 · Phase 11
HPCM-1B:压缩领域的 Scaling Law

Phase 11: HPCM — Hierarchical Progressive Context Modeling(2025, ICCV)★★★

以多尺度编码顺序(1/4 → 1/2 → 1×)高效建模长程依赖。分层渐进式上下文:不同层级的 latent 使用不同粒度的上下文。

HPCM-1B 将模型扩展到 10 亿参数,发现了压缩领域的 Scaling Law:测试损失与模型规模/训练计算之间存在可预测的幂律关系。这是压缩领域首次验证 Scaling Law 的存在。

更准确地说,HPCM-1B 不是单纯“模型更大”,而是把 learned image compression 从小模型架构搜索推进到 scaling-law 实验范式。它说明 entropy/context model 的容量可能仍是 RD 性能瓶颈。

这对研究策略的影响很直接:过去的论文常以模块创新为主,例如换一个 context model、换一个 prior、换一种分组顺序;Scaling Law 视角则要求我们同时报告模型规模、训练计算、数据规模和测试损失之间的关系。压缩模型开始接近基础模型研究范式。

需要谨慎的地方

Scaling Law 并不自动意味着“越大越好”。压缩系统还受编码/解码延迟、内存、算术编码吞吐、设备端部署约束限制。HPCM-1B 的意义主要是证明容量仍能换取 RD 收益,而不是证明 1B 参数 codec 已经适合实际部署。

Scaling 方向被放大的模块优化目标意义
HPCM-1Bcontinuous latent context modelRD / entropy modeling压缩模型存在规模律可能
AR-VFM Compressionvisual token priortoken entropy离散 token 先验可复用基础模型
OneDC / StableCodecgenerative decoderperceptual quality感知质量依赖生成先验规模
意义:如果压缩模型可以像 LLM 一样通过扩大参数获得可预测的性能提升,那么压缩研究可能进入"堆算力"阶段——理论创新的重要性可能让位于工程规模。
演化全景对比
方法年份上下文类型并行度复杂度关键创新
Factorized Prior2017无(独立)全并行O(1)基线
Scale Hyperprior2018全局尺度全并行O(n)超先验边信息
Joint AR+HP2018像素级 AR串行O(n²)GMM 似然 + AR
Channel-Conditional2020通道级 AR半并行O(C·n)通道替代像素
Checkerboard2021棋盘格2 步并行O(n)并行化解码
ELIC2022不均匀分组分组并行O(n)能量感知分组
Transformer2022全局注意力全并行O(n²)长程依赖
TCM 混合2023局部+全局全并行O(n²)CNN+Transformer
MambaIC2025SSM全并行O(n)线性复杂度全局
Dictionary2025数据驱动全并行O(n)可学习字典
HPCM-1B2025分层渐进分层并行O(n)Scaling Law
统一解释框架:decoder 的不确定性账本

如果把所有方法都写成“模型更强”,这条线会迅速变成论文罗列。更清晰的方式是把它们放进同一个账本:decoder 原本不知道什么,论文让它多知道了什么,以及这份确定性用什么买来。

阶段decoder 的盲区获得的信息付出的代价
Factorized Prior不知道 latent 的局部尺度和相关性只有全局独立先验码率浪费
Hyperprior不知道哪些位置更不确定side stream 给出尺度/不确定性提示额外 side bits
AR + Hyperprior不知道当前符号与已解码邻域的条件关系局部已解码 contextdecoder-side latency
Checkerboard / ELIC不知道哪些 context 该先用、如何分组用重排后的空间-通道上下文结构复杂度和调参成本
Transformer不知道长程区域之间的统计依赖全局注意力上下文O(n²) 计算/显存
Mamba / SSM需要低成本长程依赖线性复杂度状态传递扫描顺序和状态设计成本
Dictionary / Memory Prior不知道当前 latent 是否接近训练集常见模式检索式/记忆式先验字典维护和泛化风险
HPCM-1B上下文模型容量不足更大规模分层上下文模型训练计算、内存、部署成本
四条核心洞察

「AR 的速度问题贯穿整个演化。」

——从像素级 AR(极慢)→ 通道级 AR(较快)→ 棋盘格(近实时)→ Transformer/SSM(并行),每一步都在解决上一步的速度瓶颈

「先验建模的抽象层次不断提升。」

——参数化高斯(Ballé)→ GMM(Minnen)→ 注意力(Transformer)→ 状态空间模型(Mamba)→ 数据驱动字典 → Scaling Law

「并行化是实用化的关键。」

——Checkerboard 和 Mamba 代表两条不同的并行化路径:前者重新组织解码顺序,后者改变模型架构本身

「Scaling Law 的出现改变了游戏规则。」

——HPCM-1B 证明压缩模型可以像 LLM 一样通过扩大参数获得可预测的性能提升
从论文仓库看 2024–2026 新分叉

基于 cshw2021 的 Learned-Image-Video-Compression 索引,2024 之后熵模型不再只是沿着“更强 context model”单线前进,而是出现几条并行分叉。它们共同回答同一个问题:在 decoder 端,哪些信息值得等待,哪些信息值得额外传,哪些信息可以从训练集或内容结构中检索出来。

分叉代表论文核心问题与主线关系
多参考上下文MLIC, Diverse Contexts一个 context 是否足够,能否从多个已解码参考中估计概率Minnen/ELIC 的自然延伸
快速似然模型FlashGMM, Gaussian-Laplacian-Logistic MixtureGMM 似然足够灵活,但计算与熵编码如何变快回到 Minnen 的 GMM 似然本身做工程化
内容自适应 priorCMIC, Switchable Hyperprior, Local-to-Global Cross-Component Prior不同图像区域是否应该使用不同 prior/context 路径把 ELIC 的固定分组推进到内容自适应
记忆增强 priorDictionary-based Entropy Model训练集中常见 latent 模式能否显式作为概率先验从参数化概率走向检索式先验
重审 latent 本身Rethinking Latent Variable in Learned Image Compressionlatent 功能是否只是承载重建信息,还是同时承担可编码性结构把熵模型问题反推到表示学习问题
规模化上下文模型HPCM / NVC-1B压缩模型是否存在可预测 scaling law从模块创新转向模型规模与训练计算

读仓库时的筛选原则

只看标题很容易把所有论文归成“又一个 codec”。更有用的筛法是问:这篇论文减少了 decoder 的哪种不确定性?它用什么付费?是 side bits、latency、结构复杂度、训练数据记忆,还是模型规模?只有能回答这两个问题的工作,才值得纳入熵模型主线。

研究雷达:下一步优先读什么
优先级论文/方向为什么值得读预期产出
MLIC / Multi-Reference Entropy Model把 context 从单一路径扩展为多参考,是 Minnen → ELIC 之后最自然的主线延伸补一节“多参考上下文”
CMIC / Content-Aware Mamba直接延续 MambaIC,验证内容自适应 SSM 是否能成为新一代高效 entropy model补充 SSM 熵模型专题
FlashGMM回到 GMM 似然本身,关注熵编码速度与复杂度,是“老范式工程化”的代表补充 GMM 到快速似然建模线索
HPCM / NVC-1B把压缩研究推向 scaling law,需要单篇深读独立论文精读 + scaling law 小综述
Dictionary-based Entropy Model引入检索式/记忆式先验,可能连接 codebook、tokenizer 与 compression prior补一节“记忆增强熵模型”
Switchable Hyperprior / Local-to-Global Prior把 hyperprior 从固定 side information 推进到内容自适应和跨组件先验补充“自适应 prior”支线
C-CTX / Cubic-Checkerboard继续推进 checkerboard context 的空间组织方式,适合接在 ELIC 后面checkerboard 系列小综述

参考来源