红外图像压缩(二)
红外图像压缩系列(一) 建立了红外图像的物理基础(成像特性、数据集、传统编码器和小波域统计)。本篇进入红外压缩的第二阶段:当端到端学习式压缩(LIC)遇上红外图像,当多模态 RGB-IR 数据需要联合压缩,当压缩质量不再只由 PSNR 评判——我们需要新的设计原则和评价体系。
现代学习式图像压缩通常使用 analysis transform、quantization、entropy model 和 synthesis transform,并优化 rate-distortion 损失:
但是,普通 RGB learned image compression 默认面对的是 8-bit 三通道自然图像,而红外图像可能是高位深单通道辐射数据;如果损失函数只使用 MSE 或 MS-SSIM,就可能在视觉上看似可接受,却破坏温度误差、小目标热边缘或下游检测特征。
较新的 ARWNet: Auto-Regressive Wavelet Network for Learned Infrared Image Compression 明确把 wavelet frequency decomposition 与 channel-wise autoregressive entropy modeling 结合,说明红外 LIC 研究正在从"套用通用 autoencoder"转向"把红外频域统计写进模型结构" #ARWNet-2026。
红外 LIC 的关键改造点
- 输入域:优先处理 raw / high-bit-depth infrared,而不是只压伪彩色 8-bit 图。
- 变换域:引入小波、频域或多尺度结构,显式区分低频热背景与高频热边缘。
- 熵模型:为红外图像的低频强相关和高频稀疏设计 conditional / autoregressive probability model。
- 失真项:加入 radiometric error、temperature error、feature loss 或 detection loss。
在自动驾驶、机器人和智能监控中,红外图像常与可见光图像成对采集。Lu 等人在 CVPR 2022 论文 Learning Based Multi-Modality Image and Video Compression 中指出,多模态数据会增加存储和传输成本,而传统方法通常对每个模态单独压缩,没有利用不同模态之间的相关性 #Lu-2022。
该工作使用红外图像作为参考模态,通过 channel-wise alignment module 产生对齐特征,并把对齐后的红外特征作为上下文来压缩可见光图像;同时还引入 Transformer-based spatial alignment module 来利用不同模态解码中间特征之间的相关性,并在 FLIR 和 KAIST 数据集上优于传统和学习式单模态压缩方法 #Lu-2022。
2025 年 End-to-End RGB-IR Joint Image Compression With Channel-wise Cross-modality Entropy Model 进一步提出 CCEM,用低频上下文提取和融合模块来利用模态内与模态间先验;论文摘要报告,该方法在 LLVIP 和 KAIST 上优于已有 RGB-IR 图像对压缩方法,并在 LLVIP 上相对 CVPR 2022 RGB-IR codec 节省 23.1% bit rate #Wang-2025。
| 路线 | 核心想法 | 适用前提 | 研究潜力 |
|---|---|---|---|
| 单模态红外压缩 | 只压 IR 图像 | 只有热红外传感器 | 适合医学、工业、边缘热像仪 |
| RGB 辅助 IR 压缩 | 用 RGB 结构先验帮助 IR 重建 | RGB-IR 配准较好 | 适合低光增强、监控 |
| IR 辅助 RGB 压缩 | 用 IR 提供夜间/热目标上下文 | 红外信号可靠 | 适合自动驾驶和安防 |
| 联合 latent 压缩 | 压缩共同语义和模态残差 | 可训练成对数据充足 | 适合真正的多传感器 codec |
Bhowmik 等人的 Lost in Compression 直接研究 JPEG 有损压缩对红外图像目标检测的影响;他们在 FLIR 热红外数据上测试 JPEG quality 95、75、50、15、10、5,并评估 Cascade R-CNN、FSAF 和 Deformable DETR 等检测架构 #Bhowmik-2022。
该论文报告,在未压缩数据上训练和评估时,Cascade R-CNN 在 FLIR 数据集上达到最大 mAP 0.823;高压缩等级,尤其 quality 15、10、5,会显著降低检测性能,而在压缩图像上重新训练模型可以缓解性能下降,在 compression level 5 上平均提升约 76%;论文还指出 tiny 和 small objects 比 medium 和 large objects 更容易受到压缩影响 #Bhowmik-2022。
因此,面向红外感知的压缩损失可以写成:
其中 $D_{pixel}$ 保证基本重建,$D_{feature}$ 保证下游 backbone 特征一致性,$\mathcal{L}_{task}$ 保证检测或分割性能,$\mathcal{L}_{small}$ 专门保护小目标热斑和边缘。
| 层次 | 指标 | 回答的问题 |
|---|---|---|
| 像素保真 | PSNR, SSIM, MS-SSIM, RMSE, MRSE | 重建图像和原图有多接近? |
| 辐射/温度保真 | temperature MAE, radiometric error | 温度或辐射值还能不能用? |
| HDR/感知 | HDR-VDP2, LPIPS, DISTS | 高动态范围或结构感知差异如何? |
| 任务性能 | mAP, AP_small, mIoU, Dice, AUC | 检测、分割、诊断是否受损? |
| 工程复杂度 | encoding time, decoding time, memory, energy/frame | 能否在边缘红外设备上实时部署? |
| 范式 | 代表工作 | 优点 | 短板 |
|---|---|---|---|
| 传统通用编码 | JPEG, PNG, JPEG-LS, JPEG2000, HEVC | 标准成熟、工程可用、强基线 | 不一定理解红外任务和小目标 |
| 红外统计编码 | Huf-RLC, DWT + DPCM | 利用小波稀疏和红外线扫描冗余,速度快 | 表达能力弱于深度模型 |
| 学习式红外压缩 | ARWNet 类 wavelet + autoregressive entropy model | 可端到端优化,能吸收频域先验 | 公开基准和复现实验仍不足 |
| RGB-IR 联合压缩 | CVPR 2022 multi-modality codec, CCEM 2025 | 利用跨模态冗余,节省总码率 | 依赖配准图像对和成对训练数据 |
| 任务驱动压缩 | Detection-aware / small-object-aware compression | 直接优化检测、分割或诊断任务 | 评价复杂,可能牺牲人眼重建质量 |
最直接的科研切口是 Task-Aware Learned Infrared Image Compression for Small Object Detection:把红外图像压缩从单纯 rate-distortion 问题改写为 rate-distortion-accuracy 问题,并专门保护小目标热斑。
实验设计草案
- 数据集:FLIR ADAS 作为主数据集,KAIST / LLVIP 作为 RGB-IR 扩展。
- baseline:JPEG、JPEG2000、HEVC intra、Ballé hyperprior、Cheng attention model、普通 LIC fine-tune。
- 模型:infrared encoder + wavelet/frequency auxiliary latent + entropy model + decoder + frozen detector feature loss。
- 指标:bpp、PSNR、MS-SSIM、mAP、AP_small、encoding latency。
- 关键对照:同等 bpp 下,是否能比普通 LIC 保留更多 AP_small。
更激进的方向是 Semantic-Preserving Generative Compression for Thermal Infrared Images:编码端只传低分辨率热图、目标/边缘 token 和少量 latent,解码端使用 diffusion 或 latent generative prior 重建热场语义。但这条路线必须严肃处理 hallucination 风险,因为医学、安防和军事场景不能接受"生成出来的热目标"。
红外图像压缩的关键不是"把单通道图像压小",而是在尽可能低的码率下,保留热辐射场中对测量、识别和决策真正重要的信息。传统编码提供强工程基线,小波和红外统计提供可解释先验,学习式压缩提供端到端优化空间,多模态联合压缩提供跨传感器冗余,而任务驱动压缩则把目标从视觉保真推进到机器感知保真。
如果后续继续深入,我建议优先沿两条线推进:第一,复现传统编码、通用 LIC 和红外专用方法在 FLIR/KAIST/LLVIP 上的 rate-distortion-accuracy 曲线;第二,设计 AP_small-aware 或 radiometric-aware 的红外 LIC,使压缩模型真正服务于红外图像的应用本质。
本篇覆盖了学习式压缩、多模态联合压缩和任务驱动评价。下一篇 红外图像压缩系列(三) 将聚焦红外轮廓图与二值边缘图的专门压缩方法:从 CCITT G4、JBIG 到链码、结构保持编码和 Coding for Machines。
- Teledyne FLIR OEM. FLIR Thermal Datasets for Algorithm Training. https://oem.flir.com/solutions/automotive/dataset
- Mantel, C., & Forchhammer, S. (2017). Compression of Infrared Images. IS&T Electronic Imaging. PDF
- Schaefer, G. et al. An evaluation of lossless compression algorithms for medical infrared images. PubMed abstract. https://pubmed.ncbi.nlm.nih.gov/17282533/
- Zhang et al. (2025). Lossy Infrared Image Compression Based on Wavelet Coefficient Probability Modeling and Run-Length-Enhanced Huffman Coding. Sensors. PubMed; MDPI
- Bhowmik, N., Barker, J. W., Gaus, Y. F. A., & Breckon, T. P. (2022). Lost in Compression: the Impact of Lossy Image Compression on Variable Size Object Detection within Infrared Imagery. arXiv:2205.08002. https://arxiv.org/abs/2205.08002
- Lu, G., Zhong, T., Geng, J., Hu, Q., & Xu, D. (2022). Learning Based Multi-Modality Image and Video Compression. CVPR 2022. CVF Open Access
- Wang, H. et al. (2025). End-to-End RGB-IR Joint Image Compression With Channel-wise Cross-modality Entropy Model. arXiv:2506.21851. https://arxiv.org/abs/2506.21851
- ARWNet: Auto-Regressive Wavelet Network for Learned Infrared Image Compression. IEEE Xplore record. https://ieeexplore.ieee.org/abstract/document/11442008