ESC
输入关键词搜索文章
目录

超低码率生成式压缩

从比特不足到语义生成
≤0.05 bpp 时,压缩不再是像素复原,而是把足够语义送到生成器手里
≤0.05bpp 极低码率
1-step扩散解码
60FPSCoD-Lite
Chapter 1 · 问题重新定义
0.05 bpp 以下,压缩任务变成了什么?

0.05 bpp 意味着一张 256×256 图像只有约 3277 bit,也就是 409 字节左右;如果进一步到 0.01 bpp,则只剩 655 bit,约 82 字节。这个预算不足以传输真实纹理,也不足以保留完整边缘和局部结构。传统 codec 在这个区域会出现严重块效应、振铃、过平滑和语义破坏。

因此,超低码率生成式压缩的基本前提是:编码端不再传输足够重建像素的信息,而是传输足够生成语义一致图像的信息。 解码端依赖生成先验补全纹理、局部细节和自然图像统计。

这不是一个小技巧,而是压缩目标函数的变化。传统压缩优化 rate-distortion:\(R+\lambda D\)。生成式压缩还要引入 perception:\(R, D, P\) 三者之间存在 Blau & Michaeli 所说的 Rate-Distortion-Perception tradeoff。

核心判断:在 ≤0.05 bpp 区域,PSNR 导向的“忠实重建”会自然走向模糊;感知导向的“可信生成”会自然走向幻觉。整个方向的技术难点,就是在两者之间找到可控边界。
Chapter 2 · 历史入口
HiFiC 打开的门:用户偏好不等于 PSNR
HiFiC architecture
HiFiC 将 GAN 损失引入 learned compression,证明在较低码率下,人类主观偏好可以超过更高码率的传统 codec。

HiFiC 的意义不在于它是第一个使用 GAN 的 codec,而在于它系统地把用户研究引入学习式压缩,证明“更低失真”并不等价于“人眼更喜欢”。在低码率下,MSE/PSNR 优化倾向于平均多个可能纹理,结果是模糊;GAN/LPIPS 优化则倾向于选择一个自然图像流形上的 plausible 样本,结果更锐利、更真实。

这给后续超低码率压缩奠定了心理物理学基础:当人眼无法从少量比特中要求像素忠实,压缩系统可以优先保留语义结构,再由生成模型恢复纹理外观。

HiFiC 之后的两条路线

路线 A:VQGAN / latent-token 生成压缩,用离散 token 或 latent code 保存语义和结构;路线 B:diffusion 生成压缩,用压缩 latent 作为条件,让扩散模型补全真实细节。DLF、StableCodec、OneDC、CoD-Lite 都是在这两条路线交汇处展开。

Chapter 3 · VQGAN 路线
双分支架构:语义与细节必须分开编码
DLF dual branch architecture
DLF 双分支架构。语义分支提取结构主干,细节分支补充纹理信息。它反映了超低码率下“语义优先、细节生成”的核心原则。

VQGAN 压缩路线的基本思想是:先把图像映射到离散或半离散 latent,再在 latent 空间中进行压缩和生成。相比连续 latent,离散 token 的优势是码率清晰、可接入 AR/LM prior;相比传统 codec,它允许 decoder 利用生成先验恢复纹理。

但超低码率下,单一路径很容易失败。若所有信息都塞进一个 latent,模型要同时表达全局结构、对象语义、局部边缘、纹理风格,信息竞争非常严重。DLF 类双分支方法的直觉是:结构和细节不是同一种信息,应该用不同通道承载。

语义分支

语义分支负责保存对象类别、空间布局、主要边缘、显著区域。这部分决定图像“是什么”。在极低码率下,语义分支是不可牺牲的,因为一旦语义错了,再真实的纹理也只是 hallucination。

细节分支

细节分支负责保存纹理、局部高频、背景模式和感知质量。这部分决定图像“像不像自然图像”。极低码率下细节分支不可能完整传输原图纹理,只能提供生成器的约束或提示。

损失函数

这类模型通常不是单一损失,而是多目标加权:

$$\mathcal L = R + \lambda_d D(x,\hat x) + \lambda_p \mathcal L_{perc} + \lambda_g \mathcal L_{GAN}+\lambda_s \mathcal L_{sem}$$

其中 \(R\) 控制码率,\(D\) 控制像素失真,perceptual/GAN loss 控制自然性,semantic loss 控制语义一致性。真正难点在于这些项互相冲突:增强 GAN 可能降低 PSNR,强化 pixel loss 又会抹掉纹理。

双分支不是免费午餐

双分支带来结构清晰,但也引入训练不稳定、分支冗余、融合时机难选、推理开销较高等问题。若语义分支和细节分支没有明确分工,模型会退化为两个互相干扰的普通 encoder。

Chapter 4 · Diffusion 路线
为什么扩散模型适合极低码率?

扩散模型的强项是从粗条件中生成高频细节。超低码率压缩正好提供了这样的场景:bitstream 只承载稀薄条件,decoder 要恢复自然图像流形上的一个合理样本。PerCo、DiffEIC 等多步扩散压缩证明了这一点,但也暴露出严重问题:解码太慢。

多步扩散的每一步都需要网络前向传播。20 步、50 步甚至更多步数意味着秒级解码,这对于图像 codec 几乎不可接受。于是 2025 年的核心突破变成:把扩散压缩从多步采样变成单步生成。

方法生成机制典型解码成本主要贡献主要风险
PerCo多步 score/diffusion秒级极低码率高感知质量速度慢
DiffEIClatent guidance + diffusion prior多步,秒级压缩 latent 引导扩散工程部署困难
StableCodecone-step diffusion约 0.3s 级辅助解码器分担结构生成细节一致性
OneDCone-step diffusion + semantic distillation约 20× 加速hyperprior 作为语义条件依赖蒸馏语义质量
CoD-Lite轻量 diffusion codec实时级局部注意力 + DMD 蒸馏轻量模型上限
Chapter 5 · StableCodec
辅助解码器:不要让扩散模型同时负责结构与细节
StableCodec architecture
StableCodec 的关键设计是辅助解码器 + 扩散生成器。辅助解码器负责结构,扩散模型负责真实细节。

StableCodec 的设计非常值得单独拿出来看。它的基本判断是:单步扩散模型若同时承担结构恢复和细节生成,负担太重。结构一旦错,后续纹理越真实,幻觉越严重。因此 StableCodec 增加辅助解码器,从比特流中直接恢复结构性条件,再让扩散生成器专注高频细节。

这实际上把生成式压缩拆成两个问题:

  1. 低码率条件下,尽可能忠实恢复结构草图。
  2. 在结构草图约束下,用生成先验补充自然纹理。

这个分工与 DLF 的语义/细节双分支在思想上是一致的,只是 StableCodec 把“细节生成”交给了扩散模型。

Chapter 6 · OneDC
Hyperprior 从统计先验升级为语义条件
OneDC architecture
OneDC 将 latent compression module 与 one-step diffusion generator 结合,并通过 semantic distillation 强化 hyperprior 的语义能力。

OneDC 最有价值的地方不是“用了单步扩散”,而是重新解释了 hyperprior。传统 hyperprior 用于预测 latent 的尺度或概率参数:\(p(\hat y\mid \hat z)\)。OneDC 则进一步让 \(\hat z\) 承担语义条件角色:它不只是 entropy model 的 side information,也是生成器的一种 semantic prompt。

为了让 hyperprior 真正携带语义,OneDC 引入 semantic distillation,从预训练 generative tokenizer 中迁移语义知识。这把 continuous latent codec 与 visual tokenizer 研究线接了起来:tokenizer 提供语义结构,codec 负责把它压缩成可传输条件。

OneDC 的根本问题:压缩 hyperprior 能否从“统计先验”升级为“语义先验”?如果答案是肯定的,未来 learned compression 的 side information 就不只是为了省 bit,而是为了指导生成。
Chapter 7 · CoD-Lite
从论文原型到实时 codec
CoD-Lite architecture
CoD-Lite 的核心是轻量化扩散 codec:压缩导向预训练、局部注意力替代全局注意力、DMD 蒸馏。

CoD-Lite 关注的是另一个现实问题:即使单步扩散可行,模型仍可能太重。它发现压缩任务中的注意力模式更偏局部,不需要像通用生成模型那样每一层都做全局注意力。用局部窗口注意力或深度可分离卷积替代全局注意力,可以显著降低计算开销。

这说明生成式 codec 的部署不是简单“把 Stable Diffusion 塞进 decoder”。压缩任务有自己的结构先验:输入不是纯噪声,而是带有低熵条件;目标不是任意生成,而是在原图约束下重建。因此轻量模型可以利用这些条件减少搜索空间。

工程启发

扩散压缩要落地,关键不只是减少采样步数,还要减少每一步的模型成本。CoD-Lite 的价值在于把“one-step”进一步推进到“real-time”。

Chapter 8 · 幻觉问题
生成式压缩的边界条件

超低码率生成式压缩最危险的问题是 hallucination。一个压缩结果可以很自然、很锐利、LPIPS 很低,但语义上偏离原图。对社交图像这可能可以接受;对医学、遥感、安防、司法取证,这是不可接受的。

幻觉可以分成三层:

  • 纹理幻觉:草地、毛发、墙面纹理不一致。通常可接受。
  • 结构幻觉:边缘、形状、物体局部发生变化。需要谨慎。
  • 语义幻觉:物体类别、数量、身份或关键属性改变。高风险。

因此,未来的评价指标不能只看 PSNR、MS-SSIM、LPIPS、FID,还需要语义一致性指标,例如 CLIP/BLIP 一致性、检测框保持率、分割 mask 一致性、关键点误差,以及任务驱动指标。

底线

生成式压缩适合感知消费场景,但不能无条件替代传统 codec。它需要明确标注适用边界,尤其不能在真实性敏感场景中默认使用。

Chapter 9 · 部署路线
从实验室方法到可用系统
层面问题可行路线
编码端不能太重轻 encoder、MobileNet/EfficientNet-lite、只提取语义结构
码率控制极低码率下质量波动大多码率训练、可变 token 数、semantic bit allocation
解码端生成模型太慢one-step diffusion、DMD/consistency distillation、局部注意力
可靠性幻觉不可控结构辅助解码器、语义一致性约束、任务指标检测
标准化bitstream 不兼容定义 latent/token 语法、版本化生成器、fallback codec

短期看,生成式超低码率压缩更可能先落地在缩略图、社交媒体预览、云端图像传输、低带宽内容消费等场景。长期看,若语义一致性可控,它可能成为传统 codec 在低码率端的补充层。

核心结论

「超低码率不是普通压缩的低码率版本,而是另一个问题。」

比特预算不足以还原像素,只能传输生成所需条件。

「结构必须被约束,纹理可以被生成。」

DLF、StableCodec、OneDC 的共同点都是把结构/语义条件放在核心位置。

「单步扩散解决速度问题,但不自动解决真实性问题。」

OneDC/StableCodec/CoD-Lite 推进了部署可行性,但 hallucination 仍是边界条件。

参考来源

  • 超低码率生成式图像压缩技术报告(水言风语分享)— 内部 PDF
  • Blau & Michaeli (2019) Rethinking Lossy Compression: The Rate-Distortion-Perception TradeoffarXiv:1901.07821
  • Mentzer et al. (2020) High-Fidelity Generative Image CompressionarXiv:2006.09965
  • DLF (2025) Extreme Image Compression with Dual-generative Latent FusionarXiv:2503.01428
  • StableCodec (2025) Taming One-Step Diffusion for Extreme Image CompressionarXiv:2506.21977
  • OneDC (2025) One-Step Diffusion-Based Image Compression with Semantic DistillationarXiv:2505.16687
  • CoD-Lite (2025) Real-Time Diffusion-Based Generative Image Compression
  • PerCo (2023) High-Fidelity Image Compression with Score-based Generative ModelsarXiv:2305.18231