红外图像压缩论文精读（一）：Huf-RLC，用零游程修补 Huffman 在红外线扫图像压缩中的短板

2026/06/16 22:09:58·2026/06/20 00:05:00

红外图像图像压缩 DWT Huffman JPEG2000 游程编码

Part 1 · 引言

为什么红外线扫图像需要一套新的轻量压缩器？

红外成像系统在安防、工业检测、遥感等领域越来越常见，而线扫（line-scanning）红外探测器又以高分辨率、大动态范围、连续推扫的方式工作，单帧数据量非常可观。论文作者来自中科院上海技物所红外探测与成像技术实验室，他们面对的实际问题是：这些图像冗余高、文件大，但后端往往要求实时或准实时处理，存储与带宽压力极大 #Zhu-2025。

传统方案中，JPEG 基于块 DCT，在低码率下会出现明显的块效应；JPEG2000 用lifting DWT 加 MQ 算术编码，质量更好，但 MQ 是上下文自适应的二进制熵编码，需要逐 bit 维护概率状态，复杂度远高于查表式编码 #Zhu-2025。深度学习压缩虽然 RD 性能可以超过 JPEG2000，却需要神经网络前向推理，对嵌入式或高速场景并不友好。

因此，作者没有走“更复杂模型”的路线，而是反其道行之：在经典的 transform–quantization–entropy 框架内部做工程优化，目标很明确——在尽量接近 JPEG2000 压缩效率的同时，显著降低编码复杂度。这篇 Sensors 2025 论文提出的 Huf-RLC（Run-Length-Enhanced Huffman Coding）就是这个思路的集中体现 #Zhu-2025。

一句话概括：Huf-RLC 是一个面向红外线扫图像的轻量小波压缩器。它用离线统计的小波系数概率模型省掉在线建表成本，再用零游程增强 Huffman 编码，专门解决稀疏小波系数中“零太多但 Huffman 最短码仍至少 1 bit”的低效问题。

Part 2 · 问题剖析

Huffman 的“1 bit 下限”到底卡在哪里？

要理解 Huf-RLC 的贡献，必须先回到 Huffman 编码的基本约束。Huffman 是最优前缀码，在“每个符号必须分配整数个 bit”的限制下，它能让平均码长最接近香农熵。但这个限制本身就是瓶颈：当某个符号概率不是 2 的负整数幂时，Huffman 分配的码长必然大于该符号的自信息 #Zhu-2025。

论文用零符号做了一个非常直观的量化。若零的概率为 $$p(0)=0.8$$ ，它的自信息是：

I(0)=-\log_2 p(0)=-\log_2 0.8\approx 0.322\ \text{bit}.

但 Huffman 给最常见符号分配的最短码通常是 1 bit，于是零符号的码长误差为：

\Delta I(0)=1-0.322=0.678\ \text{bit}.

作为对比，一个概率 $$p(x_i)=0.01$$ 的非零符号，自信息约为 6.644 bit，Huffman 通常分配 7 bit，误差只有 0.356 bit #Zhu-2025。也就是说，在稀疏分布里，零符号的码长浪费是最大的，而且零越多、浪费越被放大。

核心矛盾

Huffman 很快（查表 $$O(1)$$ ），但最短码长不能低于 1 bit；稀疏小波系数里零很多，而且常常连续出现。单个零用 1 bit 已经浪费，一长串零逐个编码，就把 Huffman 的整数码长缺陷成倍放大。

到这里，一个自然的思路浮现：如果能把连续零的“游程长度”也编码进去，就可以让一次 Huffman 码字携带多个零的信息，从而把平均到每个零上的 bit 数降到 1 以下。这正是 Huf-RLC 的出发点。

Part 3 · 方法总览

整体 pipeline：DWT → DUSQ → DPCM → 概率模型 → Huf-RLC

论文的整体框架仍属于经典 transform coding，但每个环节都针对红外图像的统计特性做了精细化设计 #Zhu-2025：

论文 Figure 12：基于 Huf-RLC 和小波系数概率模型的有损压缩框架。高频子带走概率模型 + Huf-RLC，低频 LL 子带先经过 DPCM 再建模编码 #Zhu-2025。

模块	作用	关键设计
5 级 lifting DWT	把图像能量拆分到 LL/LH/HL/HH 子带	Daubechies 9/7，整图无块划分，避免块效应
DUSQ	带死区的均匀标量量化	死区 $T=1.7\Delta$ ，扩大零区间，增强稀疏性
DPCM	仅对 LL 子带做列向差分	去除低频空间冗余，同时避免高频噪声放大
概率模型	离线统计各子带量化系数分布	53 张图训练，16 子带 × 5 量化等级
Huf-RLC	把零游程长度附加到零的最短 Huffman 码后	每个子带/量化等级有独立最优零游程 bit 数

下面我们用 Mermaid 把这个 pipeline 画成一张可读性更强的流程图：

graph TD
    A[原始红外图像] --> B[5级 lifting DWT]
    B --> C[16 个子带系数]
    C --> D[DUSQ 死区量化]
    D --> E{子带类型}
    E -->|LL| F[列向 DPCM]
    E -->|LH/HL/HH| G[保持原系数]
    F --> H[按子带/量化等级查概率模型]
    G --> H
    H --> I[预建 Huffman 码表]
    I --> J[Huf-RLC 零游程增强编码]
    J --> K[压缩码流]

可以看到，这条链路的复杂度主要集中在离线阶段（统计概率模型、建码表、选定零游程 bit 数），在线编码阶段几乎全是查表和单次扫描，因此速度非常快 #Zhu-2025。

Part 4 · 小波变换与死区量化

把图像能量拆成可预测的结构

4.1 为什么选择 DWT 而不是 DCT？

论文在引言部分花了相当篇幅比较 KLT、DCT 和 DWT。KLT 在 MSE 意义下是最优线性正交变换，但需要依赖数据统计，计算复杂；DCT 基函数固定，计算简单，但它是全局基函数，对非平稳图像的局部特征（边缘、纹理）捕捉不足，JPEG 的 $8\times 8$ 块 DCT 又会在低码率下引入块效应 #Zhu-2025。

小波变换的基函数只在局部区域非零，因此可以整图做卷积式分解，不需要分块，自然避免块效应。同时 DWT 保留时域和频域信息，支持多分辨率渐进传输，这些特性让它成为 JPEG2000 的核心 #Zhu-2025。

论文采用 JPEG2000 中 lossy 模式常用的 Daubechies 9/7 DWT，并用 lifting 实现 #Taubman-2002。lifting 把传统 Mallat 滤波器组分解为预测（prediction）和更新（update）步骤，计算更高效、边界处理更友好，且与 Mallat 滤波器组在数学上等价 #Zhu-2025。

Lifting-based Daubechies 9/7 的核心步骤

设输入信号被拆分为偶序列 $$x_e[n]$$ 和奇序列 $$x_o[n]$$ ，lifting 的两步预测-更新与一次尺度归一化可写为：

\begin{aligned} d_n &= x_o[n] + \alpha\,(x_e[n]+x_e[n+1]), \\ a_n &= x_e[n] + \beta\,(d_n+d_{n+1}), \\ d_n &= d_n + \gamma\,(a_n+a_{n+1}), \\ a_n &= a_n + \delta\,(d_n+d_{n+1}), \\ a_n &= a_n \cdot \xi, \quad d_n = d_n / \xi. \end{aligned}

其中 $\alpha=-1.586134342$ 、 $\beta=-0.05298011854$ 、 $\gamma=0.8829110762$ 、 $\delta=0.4435068522$ 、 $\xi=1.149604398$ 是 JPEG2000 采用的标准参数 #Zhu-2025。

五级 DWT 后，一个图像会产生 $$3n+1=16$$ 个子带：1 个 LL 子带保存主体能量，15 个高频子带（LH、HL、HH 各 5 级）保存方向细节 #Zhu-2025。

4.2 DUSQ：让高频系数更稀疏

不同子带的重要性不同：LL 决定整体结构，需要精细量化；高频细节对视觉影响较小，可以粗量化。JPEG2000 采用 Dead-Zone Uniform Scalar Quantization（DUSQ），它相比普通 USQ 在零附近设置了更大的量化区间，从而把更多小幅系数推向 0 #Zhu-2025#Taubman-2002。

DUSQ 量化公式

论文实际使用的量化规则为：

q(c_j(k))= \begin{cases} 0, & |c_j(k)|<T, \\ \operatorname{sign}(c_j(k))\cdot\left\lfloor\dfrac{|c_j(k)|}{\Delta_j}\right\rceil, & \text{otherwise}, \end{cases}

其中 $$c_j(k)$$ 是子带 $$j$$ 的第 $$k$$ 个小波系数， $\Delta_j=2\Delta$ 是与子带动态范围相关的量化步长， $T=1.7\Delta$ 是死区半宽， $\lfloor\cdot\rceil$ 表示四舍五入。反量化则为 $\tilde{c}_j(k)=\operatorname{sign}(q)\cdot\Delta_j\cdot q$ #Zhu-2025。

死区的选择对 Huf-RLC 至关重要：只有零足够多、零游程足够长，后面的 run-length-enhanced Huffman 才能产生明显收益。论文用 $T=1.7\Delta$ 这个经验值，在压缩效率和重建质量之间取得平衡 #Zhu-2025。

4.3 量化等级划分：一个参数 Q 控制码率

为了实现可变码率压缩，论文引入量化参数 $Q\in(0,32]$ ，并把系数按 $$Q$$ 缩放后再量化：

q(c_j(k))= \begin{cases} 0, & |c_j(k)|<T, \\ \operatorname{sign}(c_j(k))\cdot\left\lfloor\dfrac{|c_j(k)|\cdot Q}{\Delta_j}\right\rceil, & \text{otherwise}. \end{cases}

相近的 $$Q$$ 会产生相似的概率分布，因此论文把 $$Q$$ 分成 5 个等级，每个等级对应一套概率模型和码表 #Zhu-2025：

Q 区间	量化等级	大致码率
$$(0,2]$$	5	最高质量/最高码率
$$(2,4]$$	4	高质量
$$(4,8]$$	3	中等码率
$$(8,16]$$	2	低码率
$$(16,32]$$	1	最低码率

这意味着编码器只需要一个 $$Q$$ 参数，就能自动选择对应的 5 级量化、16 个子带概率模型、16 个 Huffman 码表，以及每个高频子带对应的 Huf-RLC 零游程 bit 数。

Part 5 · 低频冗余去除与概率模型

LL 子带为什么只列向差分？

5.1 DPCM 的方向选择

DWT 保留了时域信息，因此子带内部仍存在空间冗余。作者考虑对子带做 DPCM 差分来进一步降低熵。但不同子带的方向特性不同，差分方向选择错误反而会放大噪声 #Zhu-2025：

LH（水平细节）：沿水平方向变化大，行向差分理论上更合适，但线扫红外图像的 LH 子带能量低、易受噪声影响，差分后熵反而上升。
HL（垂直细节）：列向存在一定相关性，列向差分略有收益，但不显著。
HH（对角细节）：噪声敏感，任何差分都会放大噪声、增加熵。
LL（低频近似）：包含最多图像信息和空间冗余，列向差分收益最明显。

五级子带	初始熵	列向 DPCM	行向 DPCM	结论
LH	6.1932	6.9936	6.5551	差分反而增熵，不适合处理
HL	7.5204	6.9991	8.2336	列向略有收益，但不显著
HH	5.0752	5.8301	5.8806	噪声敏感，差分增熵
LL	9.7194	7.3093	8.5251	列向 DPCM 最有效

基于以上数据，论文只在 LL 子带上使用列向 DPCM，把熵从 9.7194 降到 7.3093，降幅达 2.4101 bit。这样既能去除冗余，又不会引入额外的复杂度和噪声放大 #Zhu-2025。

5.2 离线概率模型：用“训练集”换在线速度

传统 Huffman 编码需要对每个图像、每个子带在线统计符号概率并构建码表，这会显著拖慢编码速度。论文因此采用直接统计法：对 53 张红外线扫图像做五级 DWT，统计不同量化等级下各子带量化系数的概率分布，再按概率降序构建平均概率模型和预设 Huffman 码表 #Zhu-2025。

概率模型构建流程

对 53 张训练图像分别做 5 级 DWT；
对每个子带按 5 个量化等级做 DUSQ；
统计每个（子带，量化等级）组合下各量化符号的出现概率；
在 53 张图像上取平均，得到稳定的概率模型；
根据概率模型预建 Huffman 码表。

这个设计本质上是一个工程折中：它假设同类红外线扫图像在小波子带上有稳定统计规律，因此把“统计概率 + 建码表”的计算从在线编码阶段提前到离线阶段。实际编码时只需根据 $$Q$$ 选择对应量化等级、子带概率模型、码表和零游程 bit length #Zhu-2025。

与学习式压缩的对比

学习式压缩中的 entropy model 也是在估计 latent 的概率分布，只是通常通过神经网络自适应预测。本文的概率模型更朴素：直接对同类数据做离线统计。前者更强但慢，后者更窄但快。可以把本文的概率模型理解为一种“手工设计的、针对红外图像的轻量 entropy model”。

对于超出概率模型边界的极少数符号，论文采用作者前期工作 #Zhu-2025-lossless 的方法：用最大码值统一编码，并把真实值单独存储。由于边界外概率极低，对整体压缩性能影响很小 #Zhu-2025。

Part 6 · Huf-RLC

把零游程“塞进”Huffman 最短码

6.1 再谈 Huffman 的整数 bit 限制

在深入 Huf-RLC 之前，我们用信息论语言再描述一次问题。设符号集为 $X=\{x_0,x_1,\dots,x_{n-1}\}$ ，概率为 $P=\{p(x_0),p(x_1),\dots,p(x_{n-1})\}$ 。符号 $$x_i$$ 的自信息为 $I(x_i)=-\log_2 p(x_i)$ ，整个分布的香农熵为：

H(X)=-\sum_i p(x_i)\log_2 p(x_i).

Huffman 编码给 $$x_i$$ 分配的码长 $$n_i$$ 满足 $n_i\ge I(x_i)$ ，因此实际平均码长 $L_{avg}=\sum_i p(x_i)n_i\ge H(X)$ 。等号仅在所有概率都是 $$1/2$$ 的整数幂时成立，而实际图像数据几乎不可能满足 #Zhu-2025。

DUSQ 之后，高频子带中零的概率可能高达 0.8 甚至更高。此时零的自信息约为 0.32 bit，但 Huffman 仍给零分配 1 bit，每个零浪费约 0.68 bit。当整幅图像有数百万个零时，这个浪费变得非常可观 #Zhu-2025。

论文 Figure 11：Huffman 编码的码长增长机制与最短码。二叉树中每次向下分叉增加 1 bit，因此最常见符号的最短码也至少是 1 bit #Zhu-2025。

6.2 Huf-RLC 的核心思想

Huf-RLC 没有把 RLC 和 Huffman 简单串联。传统做法通常是对零使用 RLC、对非零符号使用 Huffman，但这需要额外 flag 或 prefix，增加码流开销并复杂化编解码逻辑。本文的做法是：保留 Huffman 码表，但修改最短的零符号码，在它后面追加固定 bit 数来记录连续零的长度 #Zhu-2025。

Huf-RLC 编码规则

设零游程用固定 $$k$$ bit 表示，则可记录的游程长度范围为 $1\sim 2^k-1$ 。编码时：

顺序扫描量化系数；
遇到零时累加游程计数器 $$rlc$$ ；
当 $$rlc=2^k-1$$ （达到上限）或遇到非零系数时，输出零对应的 Huffman 码，再追加 $$k$$ bit 的 $$rlc$$ ；
非零系数按其值查 Huffman 码表编码；
扫描结束后，如果还有未输出的零游程，一并输出。

这样，一段长度为 $$L$$ 的零游程所需 bit 数大约是 Huffman(0) 的码长加上 $$k$$ bit。当 $$L$$ 很大时， $$k$$ 被分摊到 $$L$$ 个零上，每个零的平均码长就可以低于 1 bit。论文因此称其能够在稀疏分布中把平均码长降到 1 bit 以下 #Zhu-2025。

Huf-RLC 与算术编码的关系

从信息论角度看，算术编码（如 JPEG2000 的 MQ）本质上打破了 Huffman 的整数 bit 限制，可以直接逼近自信息。Huf-RLC 并没有真正突破这个限制——它仍然给每个“零游程单元”分配整数个 bit，只是通过把多个零打包成一个单元，让每个零的平均码长降到 1 bit 以下。因此它是一种工程上的近似：实现比算术编码简单得多，压缩效率通常略逊一筹。论文的实验结果也印证了这一点：Huf-RLC 速度是 JPEG2000 的 3 倍以上，但 RD 性能有小幅损失。

6.3 算法伪代码与复杂度

论文给出了完整的 Algorithm 1。其核心逻辑可以概括如下（已根据原文整理为更易读的形式）：

Algorithm 1：Run-Length-Enhanced Huffman Coding

输入：Quantized_coeff = [q₀, q₁, ..., qₙ]，码表 C = [c₀, c₁, ..., c₂·pos]
输出：Bitstream

rlc = 0
overflow_buffer = []
Bitstream = []

for 每个系数 qᵢ in Quantized_coeff:
    if qᵢ == 0:
        rlc += 1
        if rlc == 2^k - 1:          // 游程达到上限
            Bitstream += Huffman_encode(C[0])   // 零符号
            Bitstream += RLC_encode(rlc, k)     // k bit 游程长度
            rlc = 0
    else:
        if rlc ≠ 0:                  // 先输出累积的零游程
            Bitstream += Huffman_encode(C[0])
            Bitstream += RLC_encode(rlc, k)
            rlc = 0
        // 非零系数索引
        if qᵢ < 0:
            index = 2·(0 - qᵢ) + 1
        else:
            index = 2·qᵢ
        if index > 2·pos:            // 超出边界，用溢出处理
            index = 2·pos + 1
            overflow_buffer += qᵢ
        Bitstream += Huffman_encode(C[index])

Bitstream += encode(overflow_buffer)

其中符号索引规则是：0 对应零符号；正系数 $$k>0$$ 对应索引 $$2k$$ ；负系数 $$k<0$$ 对应索引 $$2(0-k)+1$$ 。这种交替排列让概率相近的相邻绝对值共享相近的码长 #Zhu-2025。

论文还分析了复杂度：算法对量化系数数组做一次线性扫描，每个元素只做常数时间的计数、比较、索引计算和查表，因此时间复杂度为 $$O(n)$$ ；除输入数据外只使用常数额外空间，输出 bitstream 规模为 $$O(n)$$ #Zhu-2025。

6.4 最优零游程 bit 长度的存在唯一性

这是论文理论部分的一个亮点。作者证明了：对于给定的零游程序列，存在一个唯一的全局最优固定 bit 长度 $$k^*$$ ，使得总编码代价最小。论文把证明放在了 Appendix A.1 #Zhu-2025。

Theorem A1：最优固定 bit 长度编码的存在唯一性

设 $\{L_i\}_{i=1}^M$ 是某量化高频子带中零游程长度的序列， $L_i\in\mathbb{N}^+$ 。若每个游程用固定 $$k$$ bit 表示（最大可记录长度为 $$2^k-1$$ ），则总编码代价

\operatorname{Total}(k)=k\cdot\sum_{i=1}^M\left\lceil\frac{L_i}{2^k-1}\right\rceil

存在唯一全局最优解 $k^*=\arg\min_{k\in\mathbb{N}^+}\operatorname{Total}(k)$ ，且对所有 $k\neq k^*$ 都有 $\operatorname{Total}(k)>\operatorname{Total}(k^*)$ 。

证明思路很清晰：先定义单条游程的代价 $f_i(k)=k\cdot\lceil L_i/(2^k-1)\rceil$ 。当 $$k$$ 较小时， $$2^k-1$$ 指数增长，分母增大使上取整项快速下降，线性增长的 $$k$$ 被“摊薄”，因此 $$f_i(k)$$ 下降；当 $$k$$ 超过某个临界值 $$k_i^*$$ 后， $\lceil L_i/(2^k-1)\rceil=1$ ，此时 $$f_i(k)=k$$ 线性增长。所以每个 $$f_i(k)$$ 都是单峰的 #Zhu-2025。

再考虑总代价的前向差分 $\Delta\operatorname{Total}(k)=\sum_i\Delta f_i(k)$ 。随着 $$k$$ 增加，贡献负值的项越来越少、贡献非负值的项越来越多，因此 $\Delta\operatorname{Total}(k)$ 至多从负变正一次。这保证了 $\operatorname{Total}(k)$ 先严格下降、再严格上升，从而最小值唯一 #Zhu-2025。

这个定理的工程意义：它告诉我们“为每个子带、每个量化等级寻找最优

\(k\)

”不是盲目的网格搜索，而是一个有唯一答案的良定义问题。实验中用 53 张图分别求出各自的

\(k^*\)

，再取均值作为该（子带，量化等级）下的全局最优

\(k\)

，是有理论保证的合理近似。

Part 7 · 完整编解码流程

一个 Q 参数如何驱动所有查表

把前面的模块串起来，整个编解码流程其实非常简洁。编码端只需要输入图像和量化参数 $$Q$$ ，解码端只需要码流和同样的 $$Q$$ #Zhu-2025：

步骤	编码端	解码端
1	对原图做 5 级 lifting DWT	——
2	由 $$Q$$ 确定量化等级（1–5）	由 $$Q$$ 确定量化等级
3	对每个子带做 DUSQ	——
4	对 LL 子带做列向 DPCM	解码后做反 DPCM
5	按（子带，量化等级）选择概率模型、码表、 $$k$$	按同样规则选择码表和 $$k$$
6	Huf-RLC 编码并输出码流	Huf-RLC 解码得到量化系数
7	——	反量化、反 DWT 重建图像

注意，概率模型、码表、 $$k$$ 都是离线训练好的，在线阶段完全不需要统计概率或重新建表。这是 Huf-RLC 速度优势的重要来源 #Zhu-2025。

工程实现要点

论文强调 DWT 实现采用了与 OpenJPEG 相同的方式并启用 SIMD，以保证小波变换效率。但即便如此，整体压缩速度仍显著超过 OpenJPEG，说明速度优势主要来自熵编码端的 Huf-RLC。值得注意的是，Huf-RLC 在速度测试中用的是单核单线程、无 SIMD 优化，这意味着还有进一步加速空间 #Zhu-2025。

Part 8 · 实验验证

接近 JPEG2000、远超 JPEG 的速度

8.1 数据集与实验设置

论文使用 53 张红外线扫图像构成训练集，用于统计概率模型和选择零游程 bit length；另有 27 张来自不同红外线扫探测器工作场景的图像构成测试集，验证泛化性 #Zhu-2025。

配置项	论文披露内容
训练集	53 张红外线扫图像
测试集	27 张不同场景红外线扫图像
图像尺寸示例	2048 × 2048（Image A）
DWT 小波/级数	Daubechies 9/7 lifting，5 级
量化参数 Q	(0,32]，分 5 个量化等级
概率模型	16 子带 × 5 量化等级
测试硬件	Intel i7-12700H，16 GB RAM（Windows 批处理脚本单图测试）
对比 baseline	JPEG、JPEG2000（OpenJPEG）

8.2 最优零游程 bit 长度的选择

在正式对比之前，论文先回答了“每个子带、每个量化等级应该用多长的 $$k$$ ”这个问题。实验在 53 张训练图像上，对五级 DWT 的 15 个高频子带，分别在 5 个量化等级下，测试 $k=1\sim 20$ 的压缩增益。压缩增益定义为 Huf-RLC 压缩比除以标准 Huffman 压缩比 #Zhu-2025。

论文 Figure 13：一级分解高频子带在不同量化等级下的压缩增益随零游程 bit 长度变化曲线。每条曲线对应一张图像，并标注了 53 张图在最优点的均值。由于 Appendix A.1 的存在，最优

\(k\)

是唯一的，取均值作为该子带的固定

\(k\)

是合理的 #Zhu-2025。

从图中可以观察到： $$k$$ 较小时，记录能力弱，长游程需要频繁拆分； $$k$$ 太大时，每个游程都多付出了不必要的 bit。曲线呈单峰形态，与 Appendix A.1 的理论证明一致。论文进一步规定：只有当某子带的压缩增益大于 2 时，才对该子带启用 Huf-RLC；否则退回到标准 Huffman 编码 #Zhu-2025。

8.3 与 JPEG、JPEG2000 的 RD 对比

主实验从训练集和测试集各选 3 张图像，在低码率（量化等级 1）和高码率（量化等级 5）下与 JPEG、JPEG2000 对比。定量结果见 Table 5 #Zhu-2025：

图像	方法	低码率（BPP/PSNR/SSIM）			高码率（BPP/PSNR/SSIM）
1	JPEG	0.0387	27.37	0.8456	0.5282	50.84	0.9928
	JPEG2000	0.0381	43.41	0.9793	0.5000	52.40	0.9947
	Proposed	0.0380	40.57	0.9704	0.4983	51.63	0.9928
均值	JPEG	0.0420	28.97	0.8484	0.702	49.67	0.9901
	JPEG2000	0.0380	43.17	0.9729	0.729	51.06	0.9926
	Proposed	0.0380	40.50	0.9649	0.701	49.95	0.9894

低码率下，JPEG 的平均 PSNR 仅 28.97 dB、SSIM 0.8484，而本文方法分别达到 40.50 dB 和 0.9649，与 JPEG2000（43.17 dB / 0.9729）的差距很小；高码率下三者差距进一步缩小。这说明本文方法在极低码率下也能保持接近 JPEG2000 的重建质量，同时避免了 JPEG 的块效应 #Zhu-2025。

论文 Figure 14：JPEG、JPEG2000 与本文方法在低/高码率下的重建图对比。低码率下 JPEG 块效应明显，本文方法视觉效果更接近 JPEG2000 #Zhu-2025。

在训练集和测试集全部图像上绘制的 RD 曲线（Figure 15）以及平均差距统计（Table 6）进一步验证了结论 #Zhu-2025：

对比对象	训练集平均 PSNR 差距	训练集低 BPP	测试集平均 PSNR 差距	测试集低 BPP
Proposed vs JPEG2000	−1.825 dB	−3.665 dB	−0.520 dB	−2.522 dB
JPEG vs JPEG2000	−3.699 dB	−8.779 dB	−2.257 dB	−6.934 dB

论文 Figure 15：训练集与测试集上的 PSNR/SSIM-BPP 曲线。本文方法整体优于 JPEG，并保持与 JPEG2000 较小差距 #Zhu-2025。

8.4 压缩速度

速度测试在 Intel i7-12700H、16 GB RAM 的 Windows 平台上进行，使用单图批处理脚本。Table 7 报告的平均速度为 #Zhu-2025：

方法	速度（MB/s）	相对 JPEG2000	相对 JPEG
JPEG	14.153	1.543×	—
JPEG2000	9.174	—	0.648×
Proposed	28.944	3.155×	2.049×

关键发现：本文方法在速度上是 JPEG2000 的 3.155 倍、JPEG 的 2.049 倍，而质量损失相比 JPEG2000 保持在小范围内。这正是“速度敏感型有损压缩”想要的结果。

Part 9 · 讨论与启发

工程方法的价值与学习式压缩的接口

这篇论文的贡献可以概括为三点。第一，作者针对红外线扫图像的小波子带统计规律建立了离线概率模型，避免在线统计和建表，把熵编码复杂度降到查表级别。第二，作者发现稀疏量化小波系数中零符号的 Huffman 最短码误差是压缩效率瓶颈，并用零游程增强修补这个问题，且给出了最优 bit 长度的存在唯一性证明。第三，作者对 LL 子带单独使用列向 DPCM，在不显著增加复杂度的情况下减少低频空间冗余 #Zhu-2025。

9.1 局限与适用范围

但它的局限也很明显。首先，概率模型依赖 53 张同类红外线扫图像的统计分布，泛化到其他红外成像模式、普通热成像阵列图像、RGB-T 数据集或医学热红外图像时需要重新验证。其次，论文主要比较 JPEG、JPEG2000 和本文方法，没有纳入 BPG/VVC intra、CCSDS 122.0 或现代 learned image compression baseline。第三，方法优化的是 PSNR、SSIM、BPP 和速度，并未评估红外下游任务，例如目标检测、测温误差或小目标保持能力 #Zhu-2025。

复现要素	论文披露状态	说明
DWT 类型与滤波器系数	已披露	lifting 9/7，Table 1/2 给出全部参数
DUSQ 公式、死区 T=1.7Δ、Q 分级	已披露	§2.1.2–2.1.3 给出
DPCM 方向选择	已披露	仅 LL 子带列向 DPCM
Huf-RLC 算法伪代码	已披露	Algorithm 1 完整给出
80 个概率模型 / 码表内容	未披露	仅 Figure 9–10 给出图示，无符号级数值
75 个 (子带, 量化等级) 的 k 值	未披露	Figure 13/A1–A4 画了曲线，无精确峰值
代码与数据集	未公开	数据需向通讯作者申请

这意味着第三方可以独立复现算法框架和流程，但若要跑出与原文完全一致的 PSNR/SSIM，必须重新采集同类红外图像、重新统计概率模型并重新搜索最优 $$k$$ 。

需要注意的适用边界

Huf-RLC 的收益强烈依赖“DUSQ 后高频子带大量连续零”这一统计特性。如果图像内容不满足这个条件（例如纹理极其丰富的可见光图像），零游程增强的收益会大幅下降，甚至可能因额外的 $$k$$ bit 开销而劣于标准 Huffman。

9.2 对学习式压缩的启发

虽然这篇论文不是 learned image compression，但它对红外 LIC 很有启发：红外图像压缩不一定要从更大的网络开始，很多收益来自对数据统计的准确理解。DWT 子带、DUSQ 零稀疏、LL 子带空间冗余、线扫方向相关性、零游程长度分布，这些都可以成为神经压缩模型里的 inductive bias。

一个自然的后续方向是把 Huf-RLC 的思想迁移到学习式熵模型：用小波域 latent 表示红外图像，用神经 entropy model 预测不同子带的概率参数，同时显式建模 zero-run 或 sparse token。这样可以在保留红外统计结构的同时，让模型适应更多场景。

我的判断：Huf-RLC 更像一个“红外传感器端实时压缩模块”，而不是通用图像压缩 SOTA。它的价值在于：当你的硬件算力有限、数据类型稳定、速度比极致 RD 更重要时，它是一条很现实的路线。

References

参考来源

Zhu, Y., Liu, Y., Zhu, Y., Huang, M., Jiang, J., & Zhang, Y. (2025). Lossy Infrared Image Compression Based on Wavelet Coefficient Probability Modeling and Run-Length-Enhanced Huffman Coding. Sensors, 25(8), 2491. DOI: 10.3390/s25082491. MDPI; PMC full text
Zhu, Y., Huang, M., Zhu, Y., & Zhang, Y. (2025). A Low-Complexity Lossless Compression Method Based on a Code Table for Infrared Images. Applied Sciences, 15(5), 2826. DOI: 10.3390/app15052826. MDPI
Usevitch, B. E. (2001). A Tutorial on Modern Lossy Wavelet Image Compression: Foundations of JPEG 2000. IEEE Signal Processing Magazine. PDF
Taubman, D. S., & Marcellin, M. W. (2002). JPEG2000: Image Compression Fundamentals, Standards and Practice. Springer.

Q 区间	量化等级	大致码率
$\((0,2]\)$	5	最高质量/最高码率
$\((2,4]\)$	4	高质量
$\((4,8]\)$	3	中等码率
$\((8,16]\)$	2	低码率
$\((16,32]\)$	1	最低码率

步骤	编码端	解码端
1	对原图做 5 级 lifting DWT	——
2	由 $\(Q\)$ 确定量化等级（1–5）	由 $\(Q\)$ 确定量化等级
3	对每个子带做 DUSQ	——
4	对 LL 子带做列向 DPCM	解码后做反 DPCM
5	按（子带，量化等级）选择概率模型、码表、 $\(k\)$	按同样规则选择码表和 $\(k\)$
6	Huf-RLC 编码并输出码流	Huf-RLC 解码得到量化系数
7	——	反量化、反 DWT 重建图像

Huf-RLC 红外压缩论文解读

核心矛盾

4.1 为什么选择 DWT 而不是 DCT？

Lifting-based Daubechies 9/7 的核心步骤

4.2 DUSQ：让高频系数更稀疏

DUSQ 量化公式

4.3 量化等级划分：一个参数 Q 控制码率

5.1 DPCM 的方向选择

5.2 离线概率模型：用“训练集”换在线速度

概率模型构建流程

与学习式压缩的对比

6.1 再谈 Huffman 的整数 bit 限制

6.2 Huf-RLC 的核心思想

Huf-RLC 编码规则

Huf-RLC 与算术编码的关系

6.3 算法伪代码与复杂度

Algorithm 1：Run-Length-Enhanced Huffman Coding

6.4 最优零游程 bit 长度的存在唯一性

Theorem A1：最优固定 bit 长度编码的存在唯一性

8.1 数据集与实验设置

8.2 最优零游程 bit 长度的选择

8.3 与 JPEG、JPEG2000 的 RD 对比

8.4 压缩速度

9.1 局限与适用范围

9.2 对学习式压缩的启发