ESC
输入关键词搜索文章
目录

红外图像压缩 Benchmark

FLIR ADAS 1.3 · 37 Codecs · Traditional + Learned
37 款编码器在 16-bit 热红外图像上的率失真、速度与压缩比实证对比,涵盖传统编码与端到端学习式压缩两大阵营。
37编码器配置
6压缩标准
18学习式模型
16-bit热红外数据
Context · 系列衔接
为什么需要这份 Benchmark

红外图像压缩系列(一) 从理论上梳理了红外成像的物理特性与传统编码基线;系列(二) 进一步讨论了学习式压缩在红外场景的局限与改造方向。但理论归理论,不同编码器在真实红外数据上的实际表现究竟如何?率失真曲线谁更优?学习式压缩在极低码率下真的能超越 JPEG2000 吗?

本篇用 FLIR ADAS 1.3 热红外数据集,对 37 款编码器配置(21 款传统 + 18 款学习式 + 3 款 ELIC)进行系统 Benchmark,覆盖 PSNR、SSIM、BPP、压缩比与编解码速度五个维度,用数据回答上述问题。

本 Benchmark 的定位:这是系列(一)(二)的实证补充——用同一套数据、同一套评价指标,横向对比传统与学习式两大阵营,为后续研究提供可复现的基线参考。
Setup · 实验设置
数据、编码器与评价方法

数据集

使用 FLIR ADAS 1.3 热红外图像,原始数据为 14-bit 辐射数据存储为 16-bit TIFF(分辨率 640×512)。测试图像取自训练集 FLIR_00001.tiff

传统编码器

标准质量级别类型备注
JPEGq25 / q50 / q75 / q95有损8-bit 输入,min-max 归一化
WebPq25 / q50 / q75 / q95 + lossless有损 + 无损8-bit 输入,min-max 归一化
AVIFq25 / q50 / q75 / q95 + lossless有损 + 无损8-bit 输入,min-max 归一化
HEIC (HEVC)q25 / q50 / q75 / q95有损8-bit 输入,min-max 归一化
JPEG2000q75 + lossless有损 + 无损支持 16-bit 直接输入
PNG无损16-bit 直接存储

学习式编码器

所有学习式模型均来自 CompressAI 预训练权重,输入做 min-max 归一化后 padding 到 64 的倍数。ELIC 模型使用独立实现 #Chandelier-2023

架构质量级别参数量级来源
bmshj2018-factorizedq1 / q4 / q8~2MCompressAI zoo
bmshj2018-hyperpriorq1 / q4 / q8~3MCompressAI zoo
mbt2018-meanq1 / q4 / q8~4MCompressAI zoo
mbt2018q1 / q4 / q8~7MCompressAI zoo
cheng2020-anchorq1 / q4 / q6~10MCompressAI zoo
cheng2020-attnq1 / q4 / q6~12MCompressAI zoo
ELICq1 / q4 / q5~45M独立实现 #Chandelier-2023

评价方法

所有编码器的 PSNR 和 SSIM 均在 min-max 归一化后的 [0, 1] 区间 上计算,data_range=1.0。这确保了不同输入位深(8-bit vs 16-bit)的编码器之间指标可比 #skimage-metrics。编码速度为单线程 CPU 测量(Apple Silicon)。

归一化注意事项

JPEG/WebP/AVIF/HEIC 仅接受 8-bit 输入,因此需要先将 16-bit 红外数据线性缩放到 [0, 255],解码后再反缩放回原始动态范围计算 PSNR。如果不做归一化直接比较,PSNR 会被人为抬高约 31 dB。

Findings · 关键发现
数据告诉我们的四件事
发现一:HEIC 在保真度上碾压所有对手 — HEIC q95 达到 71.6 dB,远超第二名 AVIF q95(51.3 dB)。HEVC 编码在高位深红外数据上的保真度优势显著。
发现二:ELIC 是极低码率的王者 — ELIC-q1 仅需 0.02 bpp(947× 压缩比),仍能保持 32.7 dB,这在带宽受限的边缘红外传感器上具有实际意义。
发现三:传统编码速度碾压学习式 — JPEG q25 编码仅需 0.4 ms,而学习式编码器普遍需要 70–800 ms。ELIC 最慢(约 500 ms),cheng2020-attn 解码甚至超过 2 秒。
发现四:WebP q95 是最佳率失真折中点 — 在 0.75 bpp 达到 47.6 dB,编码时间 42 ms,兼顾质量与速度,是通用场景下的首选。
Results · 完整数据
37 款编码器全量对比
Codec PSNR (dB) SSIM BPP Ratio Enc (ms) Dec (ms) Size (KB)
JPEG q2539.030.95160.2273.3×0.40.08.7
JPEG q5041.940.97200.3249.6×0.40.012.9
JPEG q7544.380.98230.4833.7×0.40.019.0
JPEG q9549.480.99241.3511.8×6.10.054.0
WebP q2537.950.94990.10159.1×9.30.14.0
WebP q5040.200.96310.15106.6×10.10.16.0
WebP q7541.740.97120.2078.5×10.80.18.2
WebP q9547.590.98900.7521.2×42.50.130.1
WebP-lossless1.00002.576.2×74.00.2102.6
AVIF q2537.490.94780.08213.1×12.30.13.0
AVIF q5042.340.97540.1983.7×14.30.17.7
AVIF q7546.230.98610.3941.1×16.10.115.6
AVIF q9551.340.99401.2213.1×38.30.148.8
AVIF-lossless46.230.98610.3941.1×15.60.115.6
HEIC q2538.690.95530.09175.4×24.00.13.6
HEIC q5045.680.98570.3447.3×40.70.113.5
HEIC q7555.490.99822.018.0×96.40.180.5
HEIC q9571.641.00003.025.3×113.90.1120.9
JPEG2000 q751.00005.193.1×44.30.1207.8
JPEG2000-lossless1.00005.193.1×47.00.1207.8
PNG1.00007.252.2×9.50.1290.0
bmshj2018-factorized q133.320.93170.07226.9×135.295.22.8
bmshj2018-factorized q439.600.96410.2079.6×66.895.08.0
bmshj2018-factorized q846.700.98920.7421.8×195.5150.729.4
bmshj2018-hyperprior q132.850.92900.05347.1×90.2103.71.8
bmshj2018-hyperprior q438.660.96170.12137.3×83.9106.74.7
bmshj2018-hyperprior q846.960.98830.3743.3×128.2164.614.8
mbt2018-mean q135.290.92990.04450.1×79.3106.61.4
mbt2018-mean q440.100.96360.10163.5×78.9104.63.9
mbt2018-mean q846.790.98780.3447.0×133.3174.513.6
mbt2018 q135.510.93180.03504.1×377.91805.21.3
cheng2020-attn q134.600.93330.2955.4×438.01858.311.6
cheng2020-attn q440.050.96360.08189.2×779.12122.33.4
cheng2020-attn q643.470.97810.15104.0×623.72285.96.2
ELIC q132.740.90700.02947.1×497.9478.60.7
ELIC q437.770.94820.05349.3×454.9458.91.8
ELIC q541.370.96940.09171.4×450.3452.93.7

如何读这张表

PSNR 和 SSIM 越高越好;BPP(bits per pixel)越低表示压缩越激进;Ratio = 原始大小 / 压缩大小,越高越好;Enc/Dec 时间越短越快。无损编码(PNG / JPEG2000-lossless / WebP-lossless)的 PSNR 为 ∞。

Rate-Distortion · 率失真分析
码率-失真曲线:谁离左上角最近

率失真曲线是评价压缩效率的核心工具:横轴是码率(BPP,越低越好),纵轴是质量(PSNR/SSIM,越高越好),因此 曲线越靠近左上角,编码器效率越高

PSNR vs BPP 率失真曲线。传统编码器(蓝/绿/橙)在中等码率段效率领先;ELIC(粉色)在极低码率段(< 0.1 bpp)有独特优势。
SSIM vs BPP 率失真曲线。结构相似性维度下,HEIC 和 AVIF 在高码率段接近 1.0,学习式编码器在低码率段与 JPEG 基本持平。

率失真曲线的解读要点

  • 传统编码器曲线(JPEG/WebP/AVIF/HEIC):从低码率到高码率连续平滑,HEIC 在高码率段(>2 bpp)有断崖式上升,说明 HEVC 对高位深数据的编码效率极高。
  • 学习式编码器:每个模型只有 3 个离散操作点(q1/q4/q8 或 q1/q4/q6),不构成连续曲线。mbt2018 系列在低码率段(<0.2 bpp)接近 JPEG 效率,但在中码率段被 WebP/AVIF 超越。
  • ELIC:q1 达到 0.02 bpp / 32.7 dB,是所有编码器中码率最低的,适合带宽极端受限场景。
Comparison · 多维度对比
质量、速度与压缩比的权衡
PSNR 横向对比(dB)。HEIC q95 以 71.6 dB 独占鳌头,其余编码器集中在 32–55 dB 区间。
质量 vs 编码速度散点图。右上角为理想区域(高质量 + 快速)。传统编码器集中在左上方(快速),学习式编码器集中在右下方(慢速)。WebP q95 是最优折中点。
压缩比对比(原始大小 / 压缩大小)。ELIC-q1 达到 947×,远超其他编码器,但代价是 PSNR 仅 32.7 dB。
编解码速度对比。JPEG 编码速度最快(0.4 ms),PNG 无损编码也仅需 9.5 ms。学习式编码器编码时间普遍在 70–800 ms 量级。
Visual · 视觉效果
重建图像与误差热图

下图展示 FLIR_00001.tiff 中心 256×256 裁剪区域的压缩效果。左列为原始图与各编码器的重建结果,右列为对应的绝对误差热图(红色越亮表示误差越大)。

压缩效果可视化对比。无损编码(PNG/JPEG2000-lossless)误差为零;HEIC q95 几乎无可见误差;ELIC-q1 在极低码率下仍保留主要热目标轮廓,但纹理细节丢失明显。
Discussion · 讨论
对红外压缩实践的启示

场景驱动的编码器选择

应用场景推荐编码器理由
边缘设备 / 极低带宽ELIC-q1 或 mbt2018-q10.02–0.03 bpp,保留主要热目标
通用存储 / 传输WebP q75–q95最佳率失真折中,编解码速度可接受
高保真归档HEIC q95 或 JPEG2000-losslessHEIC 71.6 dB 有损最高;J2K 无损
实时视频流JPEG q50–q75编码 0.4 ms,满足实时需求
无损归档(低存储)WebP-lossless6.2× 压缩比,远优于 PNG 的 2.2×

学习式压缩的现状与展望

当前 Benchmark 中,CompressAI 预训练的学习式编码器(bmshj2018、mbt2018、cheng2020 系列)均未在红外数据上训练,直接应用于红外数据存在领域偏移。未来方向包括:

  • 在红外数据集上 fine-tune 现有预训练模型
  • 设计红外专用的熵模型(如小波域自回归模型 #ARWNet-2026
  • 引入任务驱动损失(检测、分割)替代纯像素重建损失 #SA-ICM-2024

单图 Benchmark 的局限性

当前结果基于单张测试图像(FLIR_00001),不同场景(城市/郊外/室内)的压缩表现可能有差异。完整结论需在更大数据集上验证。Benchmark 代码已开源,支持任意图像数量的批量评测。

Reproduce · 复现
如何运行这份 Benchmark
# 克隆项目
git clone https://github.com/gongshangzheng/infraredComp.git
cd infraredComp

# 安装依赖(uv 管理)
uv sync

# 运行完整 benchmark(含学习式编码器)
uv run python -m benchmark.runner --max-images 50 --learned

# 仅运行传统编码器(更快)
uv run python -m benchmark.runner --max-images 100

运行后在 results/ 目录生成 results.csvreport.html 和全部可视化图表。

References
参考来源

参考来源