ESC
输入关键词搜索文章
目录

红外图像压缩(二)

Learned Compression · Multi-modality · Task-Aware · Evaluation
把 LIC 直接套到红外上是不够的——需要把红外频域统计写进模型结构,让码率服务于下游任务。
Continuation · 接续
从传统编码到学习式压缩:红外场景的新挑战

红外图像压缩系列(一) 建立了红外图像的物理基础(成像特性、数据集、传统编码器和小波域统计)。本篇进入红外压缩的第二阶段:当端到端学习式压缩(LIC)遇上红外图像,当多模态 RGB-IR 数据需要联合压缩,当压缩质量不再只由 PSNR 评判——我们需要新的设计原则和评价体系。

Learned Compression · 学习式压缩
把 LIC 直接套到红外上是不够的

现代学习式图像压缩通常使用 analysis transform、quantization、entropy model 和 synthesis transform,并优化 rate-distortion 损失:

$$\mathcal{L} = R(\hat{y}) + \lambda D(x, \hat{x}).$$

但是,普通 RGB learned image compression 默认面对的是 8-bit 三通道自然图像,而红外图像可能是高位深单通道辐射数据;如果损失函数只使用 MSE 或 MS-SSIM,就可能在视觉上看似可接受,却破坏温度误差、小目标热边缘或下游检测特征。

较新的 ARWNet: Auto-Regressive Wavelet Network for Learned Infrared Image Compression 明确把 wavelet frequency decomposition 与 channel-wise autoregressive entropy modeling 结合,说明红外 LIC 研究正在从"套用通用 autoencoder"转向"把红外频域统计写进模型结构" #ARWNet-2026

红外 LIC 的关键改造点

  • 输入域:优先处理 raw / high-bit-depth infrared,而不是只压伪彩色 8-bit 图。
  • 变换域:引入小波、频域或多尺度结构,显式区分低频热背景与高频热边缘。
  • 熵模型:为红外图像的低频强相关和高频稀疏设计 conditional / autoregressive probability model。
  • 失真项:加入 radiometric error、temperature error、feature loss 或 detection loss。
Multi-modality · RGB-IR 联合压缩
红外图像不只是被压缩对象,也可以成为另一个模态的先验

在自动驾驶、机器人和智能监控中,红外图像常与可见光图像成对采集。Lu 等人在 CVPR 2022 论文 Learning Based Multi-Modality Image and Video Compression 中指出,多模态数据会增加存储和传输成本,而传统方法通常对每个模态单独压缩,没有利用不同模态之间的相关性 #Lu-2022

该工作使用红外图像作为参考模态,通过 channel-wise alignment module 产生对齐特征,并把对齐后的红外特征作为上下文来压缩可见光图像;同时还引入 Transformer-based spatial alignment module 来利用不同模态解码中间特征之间的相关性,并在 FLIR 和 KAIST 数据集上优于传统和学习式单模态压缩方法 #Lu-2022

2025 年 End-to-End RGB-IR Joint Image Compression With Channel-wise Cross-modality Entropy Model 进一步提出 CCEM,用低频上下文提取和融合模块来利用模态内与模态间先验;论文摘要报告,该方法在 LLVIP 和 KAIST 上优于已有 RGB-IR 图像对压缩方法,并在 LLVIP 上相对 CVPR 2022 RGB-IR codec 节省 23.1% bit rate #Wang-2025

路线核心想法适用前提研究潜力
单模态红外压缩只压 IR 图像只有热红外传感器适合医学、工业、边缘热像仪
RGB 辅助 IR 压缩用 RGB 结构先验帮助 IR 重建RGB-IR 配准较好适合低光增强、监控
IR 辅助 RGB 压缩用 IR 提供夜间/热目标上下文红外信号可靠适合自动驾驶和安防
联合 latent 压缩压缩共同语义和模态残差可训练成对数据充足适合真正的多传感器 codec
Task-aware · 任务驱动压缩
压缩后的红外图像必须仍然"能被机器看懂"

Bhowmik 等人的 Lost in Compression 直接研究 JPEG 有损压缩对红外图像目标检测的影响;他们在 FLIR 热红外数据上测试 JPEG quality 95、75、50、15、10、5,并评估 Cascade R-CNN、FSAF 和 Deformable DETR 等检测架构 #Bhowmik-2022

该论文报告,在未压缩数据上训练和评估时,Cascade R-CNN 在 FLIR 数据集上达到最大 mAP 0.823;高压缩等级,尤其 quality 15、10、5,会显著降低检测性能,而在压缩图像上重新训练模型可以缓解性能下降,在 compression level 5 上平均提升约 76%;论文还指出 tiny 和 small objects 比 medium 和 large objects 更容易受到压缩影响 #Bhowmik-2022

因此,面向红外感知的压缩损失可以写成:

$$\mathcal{L}=R+\lambda D_{pixel}+\beta D_{feature}+\gamma \mathcal{L}_{task}+\eta \mathcal{L}_{small}.$$

其中 $D_{pixel}$ 保证基本重建,$D_{feature}$ 保证下游 backbone 特征一致性,$\mathcal{L}_{task}$ 保证检测或分割性能,$\mathcal{L}_{small}$ 专门保护小目标热斑和边缘。

研究启发:红外压缩很适合从 rate-distortion 走向 rate-distortion-accuracy,尤其是 AP_small-aware compression。
Evaluation · 评价指标
红外压缩应该分层评价,而不是只报 PSNR
层次指标回答的问题
像素保真PSNR, SSIM, MS-SSIM, RMSE, MRSE重建图像和原图有多接近?
辐射/温度保真temperature MAE, radiometric error温度或辐射值还能不能用?
HDR/感知HDR-VDP2, LPIPS, DISTS高动态范围或结构感知差异如何?
任务性能mAP, AP_small, mIoU, Dice, AUC检测、分割、诊断是否受损?
工程复杂度encoding time, decoding time, memory, energy/frame能否在边缘红外设备上实时部署?
Research Map · 方法谱系
四条主线:传统编码、红外统计、学习式编码、多模态任务压缩
范式代表工作优点短板
传统通用编码JPEG, PNG, JPEG-LS, JPEG2000, HEVC标准成熟、工程可用、强基线不一定理解红外任务和小目标
红外统计编码Huf-RLC, DWT + DPCM利用小波稀疏和红外线扫描冗余,速度快表达能力弱于深度模型
学习式红外压缩ARWNet 类 wavelet + autoregressive entropy model可端到端优化,能吸收频域先验公开基准和复现实验仍不足
RGB-IR 联合压缩CVPR 2022 multi-modality codec, CCEM 2025利用跨模态冗余,节省总码率依赖配准图像对和成对训练数据
任务驱动压缩Detection-aware / small-object-aware compression直接优化检测、分割或诊断任务评价复杂,可能牺牲人眼重建质量
Proposal · 可做选题
一个值得推进的题目:小目标感知的学习式红外压缩

最直接的科研切口是 Task-Aware Learned Infrared Image Compression for Small Object Detection:把红外图像压缩从单纯 rate-distortion 问题改写为 rate-distortion-accuracy 问题,并专门保护小目标热斑。

实验设计草案

  • 数据集:FLIR ADAS 作为主数据集,KAIST / LLVIP 作为 RGB-IR 扩展。
  • baseline:JPEG、JPEG2000、HEVC intra、Ballé hyperprior、Cheng attention model、普通 LIC fine-tune。
  • 模型:infrared encoder + wavelet/frequency auxiliary latent + entropy model + decoder + frozen detector feature loss。
  • 指标:bpp、PSNR、MS-SSIM、mAP、AP_small、encoding latency。
  • 关键对照:同等 bpp 下,是否能比普通 LIC 保留更多 AP_small。

更激进的方向是 Semantic-Preserving Generative Compression for Thermal Infrared Images:编码端只传低分辨率热图、目标/边缘 token 和少量 latent,解码端使用 diffusion 或 latent generative prior 重建热场语义。但这条路线必须严肃处理 hallucination 风险,因为医学、安防和军事场景不能接受"生成出来的热目标"。

Conclusion · 小结
红外压缩的核心:低码率下保留可决策信息

红外图像压缩的关键不是"把单通道图像压小",而是在尽可能低的码率下,保留热辐射场中对测量、识别和决策真正重要的信息。传统编码提供强工程基线,小波和红外统计提供可解释先验,学习式压缩提供端到端优化空间,多模态联合压缩提供跨传感器冗余,而任务驱动压缩则把目标从视觉保真推进到机器感知保真。

如果后续继续深入,我建议优先沿两条线推进:第一,复现传统编码、通用 LIC 和红外专用方法在 FLIR/KAIST/LLVIP 上的 rate-distortion-accuracy 曲线;第二,设计 AP_small-aware 或 radiometric-aware 的红外 LIC,使压缩模型真正服务于红外图像的应用本质。

Next · 下一篇
继续:边缘与轮廓压缩

本篇覆盖了学习式压缩、多模态联合压缩和任务驱动评价。下一篇 红外图像压缩系列(三) 将聚焦红外轮廓图与二值边缘图的专门压缩方法:从 CCITT G4、JBIG 到链码、结构保持编码和 Coding for Machines。

References
参考来源
  1. Teledyne FLIR OEM. FLIR Thermal Datasets for Algorithm Training. https://oem.flir.com/solutions/automotive/dataset
  2. Mantel, C., & Forchhammer, S. (2017). Compression of Infrared Images. IS&T Electronic Imaging. PDF
  3. Schaefer, G. et al. An evaluation of lossless compression algorithms for medical infrared images. PubMed abstract. https://pubmed.ncbi.nlm.nih.gov/17282533/
  4. Zhang et al. (2025). Lossy Infrared Image Compression Based on Wavelet Coefficient Probability Modeling and Run-Length-Enhanced Huffman Coding. Sensors. PubMed; MDPI
  5. Bhowmik, N., Barker, J. W., Gaus, Y. F. A., & Breckon, T. P. (2022). Lost in Compression: the Impact of Lossy Image Compression on Variable Size Object Detection within Infrared Imagery. arXiv:2205.08002. https://arxiv.org/abs/2205.08002
  6. Lu, G., Zhong, T., Geng, J., Hu, Q., & Xu, D. (2022). Learning Based Multi-Modality Image and Video Compression. CVPR 2022. CVF Open Access
  7. Wang, H. et al. (2025). End-to-End RGB-IR Joint Image Compression With Channel-wise Cross-modality Entropy Model. arXiv:2506.21851. https://arxiv.org/abs/2506.21851
  8. ARWNet: Auto-Regressive Wavelet Network for Learned Infrared Image Compression. IEEE Xplore record. https://ieeexplore.ieee.org/abstract/document/11442008