ESC
输入关键词搜索文章
目录

RAWIC 深度解读

ICME 2026 · PKU & AIR Tsinghua & UCAS
位深自适应的 Raw 图像无损压缩:单一模型,多相机适配
7.7%低于 JPEG-XL
6测试数据集
1统一模型
1088训练图像
Part 1
Raw 图像压缩的困境

Raw 图像是相机传感器直接捕获的未经处理的线性测量值。与经过 ISP(Image Signal Processing)管线渲染的 sRGB 图像不同,raw 数据保留了与场景辐照度的线性关系、高位深信息(通常 10-14 bit)以及传感器特有的噪声特性。这些特性使其成为图像去噪 #Zhang et al., 2021、超分辨率 #Xu et al., 2019、低光增强 #Huang et al., 2022 等底层视觉任务不可或缺的数据源。

Chunhang Zheng (PKU, 一作) Tongda Xu (AIR Tsinghua) Mingli Xie (UCAS) Yan Wang (AIR Tsinghua, 通讯) Dou Li (PKU, 通讯) ICME 2026 GitHub: chunbaobao/RAWIC

然而,raw 图像的存储和传输面临严峻挑战。以一张 Canon 600D 拍摄的 raw 图像为例,其分辨率为 $3464 \times 5202$,位深 14 bit,单张文件大小约 36 MB。相比之下,同一场景的 JPEG 图像仅约 3-5 MB。更大的问题在于异构性:不同相机传感器的位深不同(12 bit 或 14 bit),甚至同一张 raw 图像内不同区域的像素值范围也差异巨大——暗区可能只用到 8 bit,而亮区占满 14 bit。

现有的学习型无损压缩方法几乎全部针对 8-bit sRGB 图像设计。当它们试图处理 raw 数据时,要么需要 MSB/LSB 字节拆分这种工程 trick,要么根本不适用。另一条技术路线——raw 图像重建 #Punnappurath & Brown, 2021 #Nam et al., 2022 #Wang et al., 2023——则从 sRGB 图像反向恢复 raw 数据,但这条路线本质上是有损的,会破坏 raw 数据赖以存在的线性辐射关系。

核心矛盾:Raw 图像要求无损保留,但现有学习型方法要么只支持 8-bit sRGB,要么是有损重建。
Part 2
可变位深的挑战

理解 RAWIC 的创新之前,我们需要先看清它要解决的真正难题:可变位深

传统有损压缩(如 JPEG、JPEG2000)和传统无损压缩(如 PNG、FLIF)都假设输入图像的位深是固定的。对于 8-bit sRGB 图像,每个通道 256 个离散值,概率模型可以在这 256 个值上完整定义。但 raw 图像打破了这一假设。

同一张图内的位深差异

论文 Figure 2 给出了一个直观的可视化:对一张 raw 图像逐像素计算 $\lceil \log_2(\text{value}+1) \rceil$,得到一张"位深地图"。暗区(如阴影、天空)的有效位深可能只有 8-10 bit,而亮区(如直射光源)占满 14 bit。如果对整张图像统一使用 14 bit 建模,概率质量会大量浪费在暗区根本不会出现的值域上。

Raw 图像及其位深地图
图 1:Raw 图像及其逐像素位深地图。不同区域的有效位深差异显著(来源:RAWIC, Fig.2)

跨相机的位深差异

不同相机传感器的 ADC(模数转换器)精度不同。在论文使用的 NUS 数据集中,Canon 1Ds MkIII 和 Canon 600D 的 raw 数据为 14 bit,而 Olympus EPL6、Panasonic GX1 和 Samsung NX2000 则为 12 bit。如果为每种位深训练一个独立模型,不仅增加维护成本,还丧失了跨相机数据共享的潜力。

Insight:位深不是固定的全局参数,而是每个局部 patch 的属性。将位深作为条件输入而非预设常数,可以消除大量冗余比特。

论文 Figure 1 直观对比了传统方法与 RAWIC 的区别:传统方法为每个位深训练独立模型,而 RAWIC 用单一模型适配所有位深。

传统位深特定方法 vs RAWIC
图 2:(a) 传统方法为每个位深训练独立模型 (b) RAWIC 用单一模型压缩不同位深的 raw 图像(来源:RAWIC, Fig.1)
Part 3
RAWIC 架构详解

RAWIC 的核心思想可以用一句话概括:将位深作为条件信号注入熵模型,使单一网络能够适配任意位深的 raw 数据。下面我们从输入到输出逐模块展开。

Bayer 转 RGGB 四通道

Raw 图像以 Bayer pattern 排列——单通道传感器数据中,像素按 R-G-G-B 的马赛克排列。传统做法是先做 demosaicing 插值为三通道 RGB,但这会引入非线性失真,破坏 raw 数据的无损性。

RAWIC 采用了一种更优雅的转换:将单通道 Bayer 数据直接重排为 RGGB 四通道格式。具体来说,将相邻 $2 \times 2$ 像素块中的 R、G1、G2、B 分别提取为独立通道,空间分辨率减半,通道数变为 4。这样做的好处是既保留了原始传感器测量值(没有任何插值),又使标准卷积网络能够直接处理。

这是首个直接压缩单通道 Bayer pattern raw 图像的学习型无损框架 #Zheng et al., 2026

Patch 分割与位深计算

RGGB 四通道图像被分割为 $N$ 个不重叠的 patch $\{\boldsymbol{x}_i\}_{i=1}^N$。对每个 patch,计算其位深 $\boldsymbol{b}_i = \lceil \log_2(\max(\boldsymbol{x}_i)+1) \rceil$,即该 patch 内最大像素值所需的比特数。位深通过 embedding layers 映射为稠密向量 $\boldsymbol{e}_i$,作为条件信号注入后续的压缩网络。

ELIC Backbone + Hyper-prior

RAWIC 的主干架构基于 ELIC #He et al., 2022(Efficient Learned Image Compression),结合 Ballé 等人的变分超先验框架 #Ballé et al., 2018。编码流程如下:

1. Analysis transform(编码器):$\boldsymbol{y}_i = g_a(\boldsymbol{x}_i, \boldsymbol{e}_i)$,以位深 embedding 为条件将输入 patch 变换为 latent representation

2. 量化:推理时使用 round 操作;训练时用均匀噪声 $\mathcal{U}(-\frac{1}{2}, \frac{1}{2})$ 模拟,使梯度可反向传播

3. Hyper analysis$\boldsymbol{z}_i = h_a(\boldsymbol{\hat{y}}_i)$,提取 side information

4. Hyper synthesis$\boldsymbol{\mu}_i, \boldsymbol{\sigma}_i = h_s(\boldsymbol{\hat{z}}_i)$,预测 latent 的高斯分布参数

5. Synthesis transform$\boldsymbol{f}_i = g_s(\boldsymbol{\hat{y}}_i)$,生成 prior features

RAWIC 整体架构
图 3:RAWIC 整体架构。Raw 图像经 Bayer→RGGB 转换后分 patch,每个 patch 的位深通过 embedding 条件化熵模型,最终由算术编码器输出比特流(来源:RAWIC, Fig.3)

位深自适应熵模型(核心创新)

这是 RAWIC 最关键的创新。传统熵模型对像素值定义一个固定的概率质量函数(PMF),比如在 $[0, 2^{14}-1]$ 上建模。但如果一个 patch 实际只用到 10 bit,那么 $[1024, 16383]$ 区间内的概率质量完全是浪费。

RAWIC 的解决方案是位深自适应 PMF:给定基础 PMF $p(\boldsymbol{x}_{ij}^c)$ 和 patch 的位深 $\boldsymbol{b}_{ij}^c$,通过 indicator masking 和 renormalization 将概率截断到有效范围:

$$\tilde{p}(\boldsymbol{x}_{ij}^c \mid \boldsymbol{b}_{ij}^c) = \frac{p(\boldsymbol{x}_{ij}^c) \cdot \mathbb{I}(0 \leq \boldsymbol{x}_{ij}^c \lt 2^{\boldsymbol{b}_{ij}^c})}{\sum_{k=0}^{2^{\boldsymbol{b}_{ij}^c}-1} p(k)}$$

其中 $\mathbb{I}(\cdot)$ 是 indicator function,将无效区间的概率置零;分母重新归一化确保概率和为 1。这个公式看似简单,但它是实现"单一模型适配多位深"的数学核心。

RGGB 离散 Logistic 混合似然

为了精确建模 raw 像素的离散分布,RAWIC 将 PixelCNN++ #Salimans et al., 2017 的离散 logistic 混合(Discrete Logistic Mixture, DLM)从 RGB 3 通道扩展到 RGGB 4 通道。每个通道的像素值 PMF 为 $K$ 个 logistic 分量的混合:

$$p_\theta(\boldsymbol{x}_{ij}^c \mid \cdot) = \sum_{k=1}^{K} \boldsymbol{\pi}_{ij}^{ck} \cdot \Bigl[ \sigma\Bigl(\frac{\boldsymbol{x}_{ij}^c + \boldsymbol{\Delta}_{ij}^c/2 - \boldsymbol{\mu}_{ij}^{ck}}{\boldsymbol{s}_{ij}^{ck}}\Bigr) - \sigma\Bigl(\frac{\boldsymbol{x}_{ij}^c - \boldsymbol{\Delta}_{ij}^c/2 - \boldsymbol{\mu}_{ij}^{ck}}{\boldsymbol{s}_{ij}^{ck}}\Bigr) \Bigr]$$

其中 $\sigma(\cdot)$ 是 sigmoid 函数,$\boldsymbol{\mu}_{ij}^{ck}$$\boldsymbol{s}_{ij}^{ck}$$\boldsymbol{\pi}_{ij}^{ck}$ 分别是第 $k$ 个分量的均值、尺度和权重。关键设计是量化 bin 宽度 $\boldsymbol{\Delta}_{ij}^c = 1/(2^{\boldsymbol{b}_{ij}^c} - 1)$ 随位深自适应变化——位深越高,bin 越窄,概率估计越精细。

通道自回归建模

在同一空间位置内,四个通道按 R → G1 → G2 → B 的顺序进行自回归分解:

$$p_\theta(\boldsymbol{x}_{ij}^r, \boldsymbol{x}_{ij}^{g_1}, \boldsymbol{x}_{ij}^{g_2}, \boldsymbol{x}_{ij}^b \mid \boldsymbol{\mathcal{P}}_i) = p_\theta(\boldsymbol{x}_{ij}^r \mid \boldsymbol{\mathcal{P}}_i) \cdot p_\theta(\boldsymbol{x}_{ij}^{g_1} \mid \boldsymbol{x}_{ij}^r, \boldsymbol{\mathcal{P}}_i) \cdot p_\theta(\boldsymbol{x}_{ij}^{g_2} \mid \boldsymbol{x}_{ij}^r, \boldsymbol{x}_{ij}^{g_1}, \boldsymbol{\mathcal{P}}_i) \cdot p_\theta(\boldsymbol{x}_{ij}^b \mid \boldsymbol{x}_{ij}^r, \boldsymbol{x}_{ij}^{g_1}, \boldsymbol{x}_{ij}^{g_2}, \boldsymbol{\mathcal{P}}_i)$$

通道间的依赖通过均值的线性调整实现——后续通道的均值会注入已解码通道的像素值,由可学习系数 $\boldsymbol{\beta}$ 控制权重。注意 B 通道同时依赖 R 和 G1+G2 的平均值,这反映了 Bayer pattern 中蓝色像素被绿色像素对角环绕的空间结构。

架构小结:RAWIC = ELIC backbone + hyper-prior + bit-depth embedding conditioning + RGGB DLM + channel AR。创新不在于设计新网络,而在于将位深作为一等公民融入整个压缩管线。
Part 4
Training Pipeline

训练目标

无损压缩的损失函数极其简洁——没有失真项,只最小化总码率:

$$\mathcal{L} = \mathcal{R} = \mathcal{R}_{\text{latent}} + \mathcal{R}_{\text{pixel}}$$

其中 $\mathcal{R}_{\text{latent}}$ 是 latent representation 和 hyper latent 的码率开销,$\mathcal{R}_{\text{pixel}}$ 是像素数据的码率。两者都由熵模型估计的负对数似然给出。

训练数据与配置

配置项状态
训练数据集NUS 5 相机 + RAISE 5% 采样论文披露
训练图像数1088 张论文披露
划分比例80% train / 10% val / 10% test(per camera)论文披露
初始 patch size128 × 128论文披露
最终 patch size64 × 64(随机裁剪)论文披露
数据增强水平/垂直翻转 p=0.5论文披露
训练轮数200 epochs论文披露
优化器Adam(β₁=0.9, β₂=0.999 推测默认值)论文部分披露
Batch size128论文披露
初始学习率1 × 10⁻⁴论文披露
学习率调度ReduceLROnPlateau, patience=10, factor=0.1论文披露
训练硬件NVIDIA A100(数量未明确)论文部分披露
实现框架CompressAI (PyTorch)论文披露
DLM 分量数 K未披露未披露
模型参数量未披露未披露

表 1:训练配置披露表。逐项标注论文披露状态。

训练技巧

训练时量化使用均匀噪声 $\mathcal{U}(-\frac{1}{2}, \frac{1}{2})$ 模拟而非 STE(Straight-Through Estimator),这是 CompressAI 框架的标准做法,源自 Ballé 2018 的变分图像压缩范式。推理时切换为真正的 round 操作。
Part 5
编码与解码流程

编码端

flowchart TD
    A["Raw Bayer 图像"] --> B["Bayer → RGGB\n四通道转换"]
    B --> C["分割为 N 个\n不重叠 patch"]
    C --> D["计算每个 patch\n的位深 bᵢ"]
    D --> E["位深 Embedding\neᵢ = embed(bᵢ)"]
    E --> F["Analysis Transform\nyᵢ = gₐ(xᵢ, eᵢ)"]
    F --> G["量化\nŷᵢ = round(yᵢ)"]
    G --> H["Hyper Analysis\nzᵢ = hₐ(ŷᵢ)"]
    H --> I["算术编码\n输出比特流"]
    I --> J["压缩文件"]

解码端

解码是编码的精确逆过程。首先从比特流中解码 hyper latent $\boldsymbol{\hat{z}}_i$,通过 hyper synthesis 恢复 latent 分布参数;然后逐 patch 解码 $\boldsymbol{\hat{y}}_i$ 和像素数据。像素解码按 RGGB 四通道自回归顺序进行:R → G1 → G2 → B。最后将所有 patch 拼回 RGGB 四通道图像,再重排为单通道 Bayer pattern。

位深信息的存储

每个 patch 的位深 $\boldsymbol{b}_i$ 本身也需要编码到比特流中。论文在 Table I 的注释中明确指出:"our method includes the bitrates for storing bit depths"。由于位深只有有限的几种取值(10-14 bit),其编码开销极小。

计算代价

RAWIC 的解码远慢于传统 codec。Canon 600D(3464×5202, 14 bit)上,RAWIC 编码 45.7s、解码 119.3s,而 JPEG-XL 仅需 6.08s / 1.38s。解码慢 86 倍是 autoregressive pixel-by-pixel entropy model 的典型瓶颈。
Part 6
实验配置与验证

实验设置

维度详情披露状态
测试数据集NUS 5 相机测试集 + RAISE论文披露
评估指标bits per pixel (bpp)论文披露
传统 baselineQOI, PNG, WebP, FLIF, JPEG2000, JPEG-LS, JPEG-XL(共 7 个)论文披露
学习型 baselineL3C, RC, SReC, iVPF, iFlow, Near-Lossless, ArIB-BPS, DLPR(共 8 个,sRGB 实验)论文披露
推理硬件NVIDIA A100论文披露

表 2:实验配置总表。

主实验:Raw 图像无损压缩

CodecCanon 1Ds MkIII
(14-bit)
Canon 600D
(14-bit)
Olympus EPL6
(12-bit)
Panasonic GX1
(12-bit)
Samsung NX2000
(12-bit)
RAISE
(14-bit)
QOI11.3612.0910.2210.9710.7312.86
PNG10.2810.968.139.459.1611.37
WebP7.808.445.887.076.668.82
FLIF7.828.346.127.026.868.86
JPEG20007.348.045.706.676.588.58
JPEG-LS7.257.875.676.546.498.38
JPEG-XL7.297.955.606.576.468.29
RAWIC6.797.475.115.995.837.80

表 3:Raw 图像无损压缩性能对比(bpp,越低越好)。RAWIC 在全部 6 个数据集上一致最优。

关键发现:RAWIC 平均比最强传统 codec JPEG-XL 降低 7.7% 码率。在 12-bit 相机上优势更大——Olympus EPL6 上比 JPEG-XL 低 9.6%(5.60→5.11 bpp),这直接体现了位深自适应的价值。

sRGB 扩展实验

RAWIC 的框架不仅限于 raw 图像。将模型在 DIV2K 数据集上重新训练后,也可以用于 8-bit sRGB 图像压缩。在 DIV2K、CLIC、Kodak 三个测试集上,RAWIC 分别达到 7.54、6.42、8.47 bpp,均优于 L3C #Mentzer et al., 2019、SReC #Cao et al., 2020、iFlow #Zhang et al., 2021、DLPR #Bai et al., 2024 等方法,但优势幅度较小(与 DLPR 差距仅 0.9-1.5%)。

消融实验

数据集Bit-Depth AdaptiveFixed Bit Depth差距
Canon 1Ds MkIII (14-bit)6.798.78+29.3%
Canon 600D (14-bit)7.478.77+17.4%
Olympus EPL6 (12-bit)5.118.98+75.7%
Panasonic GX1 (12-bit)5.999.20+53.6%
Samsung NX2000 (12-bit)5.839.37+60.7%
RAISE (14-bit)7.809.29+19.1%

表 4:位深自适应消融。Fixed bit depth 对所有 patch 使用同一个位深(推测为 14 bit)。百分比表示 fixed 相对于 adaptive 的码率增加。

消融发现:12-bit 相机获益最大(53-76%),因为 fixed model 将大量概率质量浪费在 12-bit 数据永远不会出现的 [4096, 16383] 区间。14-bit 相机虽然差距较小(17-29%),但仍显著——即使位深相同,图像内部不同区域的位深差异也能被 adaptive 模型捕获。

All-in-One vs Camera-Specific

另一个反直觉的发现:跨相机联合训练的 all-in-one 模型在大多数数据集上优于为每个相机单独训练的 camera-specific 模型。Canon 1Ds MkIII 上降低 16.5%(7.91→6.79),Olympus EPL6 上降低 32.9%(6.79→5.11)。仅在 Samsung NX2000 上两者持平(5.83 vs 5.82),RAISE 上两者几乎持平(all-in-one 7.79 vs camera-specific 7.80,差距仅 0.1%)。这说明跨相机的知识共享确实提升了压缩性能。

Part 7
讨论与启发

RUNTIME 对比:压缩率的代价

CodecCanon 600D 编码Canon 600D 解码Olympus EPL6 编码Olympus EPL6 解码
PNG4.55s0.59s4.56s0.46s
JPEG-XL6.08s1.38s6.62s1.46s
FLIF25.97s9.36s20.41s9.36s
RAWIC45.7s119.3s37.1s98.4s

表 5:Raw 图像编解码时间对比(秒)。RAWIC 编码慢 7-8x、解码慢 67-86x(vs JPEG-XL)。

核心局限

1. 速度瓶颈:解码 119s/image(Canon 600D)使其完全不适合实时场景。作者明确承认这一局限,并将加速列为未来工作方向。

2. 仅测试 RGGB pattern:其他 Bayer 排列(BGGR、GRBG、GBRG)未验证。

3. 位深范围有限:训练和测试数据仅覆盖 12-14 bit,10-bit 和 16-bit 未涉及。

4. 泛化性待验证:仅 5 台 NUS 相机 + RAISE 数据集,工业级应用(如自动驾驶、卫星遥感)的 raw 数据分布可能显著不同。

可操作的启发

RAWIC 的核心贡献不只是压缩率数字,更在于一个方法论层面的洞察:当数据的统计特性具有已知的结构化变化(如可变位深)时,将这个变化作为显式条件注入熵模型,比让网络自己去"发现"这个变化更有效

这个思路可以迁移到其他场景:

  • 医学图像:不同设备(CT、MRI)的动态范围不同,可用类似方式条件化
  • 科学成像:天文望远镜、电子显微镜的数据位深和噪声模型各异
  • 视频压缩:帧间 bit depth 或动态范围变化(如 HDR 内容)
一句话总结:RAWIC 证明了"位深不是参数而是条件"——用 embedding 将位深信息注入熵模型,单一网络即可适配多相机多位深 raw 数据,且压缩率全面超越传统 codec。
References
参考来源

参考来源

  • Zheng, C. et al. (2026). RAWIC: Bit-Depth Adaptive Lossless Raw Image Compression. ICME 2026. arXiv:2603.28105
  • He, D. et al. (2022). ELIC: Efficient Learned Image Compression with Unevenly Grouped Space-Channel Contextual Adaptive Coding. CVPR 2022. CVPR
  • Ballé, J. et al. (2018). Variational Image Compression with a Scale Hyperprior. ICLR 2018. arXiv:1802.01436
  • Salimans, T. et al. (2017). PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications. ICLR 2017. arXiv:1701.05517
  • Alakuijala, J. et al. (2019). JPEG XL Next-Generation Image Compression Architecture and Coding Tools. SPIE 2019. JPEG XL
  • Bai, Y. et al. (2024). Deep Lossy Plus Residual Coding for Lossless and Near-Lossless Image Compression. IEEE TPAMI. DOI
  • Mentzer, F. et al. (2019). Practical Full Resolution Learned Lossless Image Compression. CVPR 2019. arXiv:1811.06387
  • Cao, S. et al. (2020). Lossless Image Compression through Super-Resolution. arXiv. arXiv:2004.02872
  • Zhang, S. et al. (2021). iFlow: Numerically Invertible Flows for Efficient Lossless Compression via a Uniform Coder. NeurIPS 2021. arXiv:2103.01451
  • Zhang, Y. et al. (2021). Rethinking Noise Synthesis and Modeling in Raw Denoising. ICCV 2021. arXiv:2107.13686
  • Xu, X. et al. (2019). Towards Real Scene Super-Resolution with Raw Images. CVPR 2019. arXiv:1905.12156
  • Huang, H. et al. (2022). Towards Low Light Enhancement with Raw Images. IEEE TIP. DOI
  • Punnappurath, A. & Brown, M.S. (2021). Spatially Aware Metadata for Raw Reconstruction. WACV 2021. arXiv:2011.06994
  • Nam, S. et al. (2022). Learning sRGB-to-Raw-RGB De-rendering with Content-Aware Metadata. CVPR 2022. arXiv:2203.08617
  • Wang, Y. et al. (2023). Raw Image Reconstruction with Learned Compact Metadata. CVPR 2023. arXiv:2303.01923