红外图像压缩系列（二）：学习式压缩、多模态联合压缩与任务驱动评价

2026/06/17 20:30:00

Continuation · 接续

从传统编码到学习式压缩：红外场景的新挑战

红外图像压缩系列（一）建立了红外图像的物理基础（成像特性、数据集、传统编码器和小波域统计）。本篇进入红外压缩的第二阶段：当端到端学习式压缩（LIC）遇上红外图像，当多模态 RGB-IR 数据需要联合压缩，当压缩质量不再只由 PSNR 评判——我们需要新的设计原则和评价体系。

Learned Compression · 学习式压缩

把 LIC 直接套到红外上是不够的

现代学习式图像压缩通常使用 analysis transform、quantization、entropy model 和 synthesis transform，并优化 rate-distortion 损失：

\mathcal{L} = R(\hat{y}) + \lambda D(x, \hat{x}).

但是，普通 RGB learned image compression 默认面对的是 8-bit 三通道自然图像，而红外图像可能是高位深单通道辐射数据；如果损失函数只使用 MSE 或 MS-SSIM，就可能在视觉上看似可接受，却破坏温度误差、小目标热边缘或下游检测特征。

较新的 ARWNet: Auto-Regressive Wavelet Network for Learned Infrared Image Compression 明确把 wavelet frequency decomposition 与 channel-wise autoregressive entropy modeling 结合，说明红外 LIC 研究正在从"套用通用 autoencoder"转向"把红外频域统计写进模型结构" #ARWNet-2026。

红外 LIC 的关键改造点

输入域：优先处理 raw / high-bit-depth infrared，而不是只压伪彩色 8-bit 图。
变换域：引入小波、频域或多尺度结构，显式区分低频热背景与高频热边缘。
熵模型：为红外图像的低频强相关和高频稀疏设计 conditional / autoregressive probability model。
失真项：加入 radiometric error、temperature error、feature loss 或 detection loss。

Multi-modality · RGB-IR 联合压缩

红外图像不只是被压缩对象，也可以成为另一个模态的先验

在自动驾驶、机器人和智能监控中，红外图像常与可见光图像成对采集。Lu 等人在 CVPR 2022 论文 Learning Based Multi-Modality Image and Video Compression 中指出，多模态数据会增加存储和传输成本，而传统方法通常对每个模态单独压缩，没有利用不同模态之间的相关性 #Lu-2022。

该工作使用红外图像作为参考模态，通过 channel-wise alignment module 产生对齐特征，并把对齐后的红外特征作为上下文来压缩可见光图像；同时还引入 Transformer-based spatial alignment module 来利用不同模态解码中间特征之间的相关性，并在 FLIR 和 KAIST 数据集上优于传统和学习式单模态压缩方法 #Lu-2022。

2025 年 End-to-End RGB-IR Joint Image Compression With Channel-wise Cross-modality Entropy Model 进一步提出 CCEM，用低频上下文提取和融合模块来利用模态内与模态间先验；论文摘要报告，该方法在 LLVIP 和 KAIST 上优于已有 RGB-IR 图像对压缩方法，并在 LLVIP 上相对 CVPR 2022 RGB-IR codec 节省 23.1% bit rate #Wang-2025。

路线	核心想法	适用前提	研究潜力
单模态红外压缩	只压 IR 图像	只有热红外传感器	适合医学、工业、边缘热像仪
RGB 辅助 IR 压缩	用 RGB 结构先验帮助 IR 重建	RGB-IR 配准较好	适合低光增强、监控
IR 辅助 RGB 压缩	用 IR 提供夜间/热目标上下文	红外信号可靠	适合自动驾驶和安防
联合 latent 压缩	压缩共同语义和模态残差	可训练成对数据充足	适合真正的多传感器 codec

Task-aware · 任务驱动压缩

压缩后的红外图像必须仍然"能被机器看懂"

Bhowmik 等人的 Lost in Compression 直接研究 JPEG 有损压缩对红外图像目标检测的影响；他们在 FLIR 热红外数据上测试 JPEG quality 95、75、50、15、10、5，并评估 Cascade R-CNN、FSAF 和 Deformable DETR 等检测架构 #Bhowmik-2022。

该论文报告，在未压缩数据上训练和评估时，Cascade R-CNN 在 FLIR 数据集上达到最大 mAP 0.823；高压缩等级，尤其 quality 15、10、5，会显著降低检测性能，而在压缩图像上重新训练模型可以缓解性能下降，在 compression level 5 上平均提升约 76%；论文还指出 tiny 和 small objects 比 medium 和 large objects 更容易受到压缩影响 #Bhowmik-2022。

因此，面向红外感知的压缩损失可以写成：

\mathcal{L}=R+\lambda D_{pixel}+\beta D_{feature}+\gamma \mathcal{L}_{task}+\eta \mathcal{L}_{small}.

其中 $D_{pixel}$ 保证基本重建， $D_{feature}$ 保证下游 backbone 特征一致性， $\mathcal{L}_{task}$ 保证检测或分割性能， $\mathcal{L}_{small}$ 专门保护小目标热斑和边缘。

研究启发：红外压缩很适合从 rate-distortion 走向 rate-distortion-accuracy，尤其是 AP_small-aware compression。

Evaluation · 评价指标

红外压缩应该分层评价，而不是只报 PSNR

层次	指标	回答的问题
像素保真	PSNR, SSIM, MS-SSIM, RMSE, MRSE	重建图像和原图有多接近？
辐射/温度保真	temperature MAE, radiometric error	温度或辐射值还能不能用？
HDR/感知	HDR-VDP2, LPIPS, DISTS	高动态范围或结构感知差异如何？
任务性能	mAP, AP_small, mIoU, Dice, AUC	检测、分割、诊断是否受损？
工程复杂度	encoding time, decoding time, memory, energy/frame	能否在边缘红外设备上实时部署？

Research Map · 方法谱系

四条主线：传统编码、红外统计、学习式编码、多模态任务压缩

范式	代表工作	优点	短板
传统通用编码	JPEG, PNG, JPEG-LS, JPEG2000, HEVC	标准成熟、工程可用、强基线	不一定理解红外任务和小目标
红外统计编码	Huf-RLC, DWT + DPCM	利用小波稀疏和红外线扫描冗余，速度快	表达能力弱于深度模型
学习式红外压缩	ARWNet 类 wavelet + autoregressive entropy model	可端到端优化，能吸收频域先验	公开基准和复现实验仍不足
RGB-IR 联合压缩	CVPR 2022 multi-modality codec, CCEM 2025	利用跨模态冗余，节省总码率	依赖配准图像对和成对训练数据
任务驱动压缩	Detection-aware / small-object-aware compression	直接优化检测、分割或诊断任务	评价复杂，可能牺牲人眼重建质量

Proposal · 可做选题

一个值得推进的题目：小目标感知的学习式红外压缩

最直接的科研切口是 Task-Aware Learned Infrared Image Compression for Small Object Detection：把红外图像压缩从单纯 rate-distortion 问题改写为 rate-distortion-accuracy 问题，并专门保护小目标热斑。

实验设计草案

数据集：FLIR ADAS 作为主数据集，KAIST / LLVIP 作为 RGB-IR 扩展。
baseline：JPEG、JPEG2000、HEVC intra、Ballé hyperprior、Cheng attention model、普通 LIC fine-tune。
模型：infrared encoder + wavelet/frequency auxiliary latent + entropy model + decoder + frozen detector feature loss。
指标：bpp、PSNR、MS-SSIM、mAP、AP_small、encoding latency。
关键对照：同等 bpp 下，是否能比普通 LIC 保留更多 AP_small。

更激进的方向是 Semantic-Preserving Generative Compression for Thermal Infrared Images：编码端只传低分辨率热图、目标/边缘 token 和少量 latent，解码端使用 diffusion 或 latent generative prior 重建热场语义。但这条路线必须严肃处理 hallucination 风险，因为医学、安防和军事场景不能接受"生成出来的热目标"。

Conclusion · 小结

红外压缩的核心：低码率下保留可决策信息

红外图像压缩的关键不是"把单通道图像压小"，而是在尽可能低的码率下，保留热辐射场中对测量、识别和决策真正重要的信息。传统编码提供强工程基线，小波和红外统计提供可解释先验，学习式压缩提供端到端优化空间，多模态联合压缩提供跨传感器冗余，而任务驱动压缩则把目标从视觉保真推进到机器感知保真。

如果后续继续深入，我建议优先沿两条线推进：第一，复现传统编码、通用 LIC 和红外专用方法在 FLIR/KAIST/LLVIP 上的 rate-distortion-accuracy 曲线；第二，设计 AP_small-aware 或 radiometric-aware 的红外 LIC，使压缩模型真正服务于红外图像的应用本质。

Next · 下一篇

继续：边缘与轮廓压缩

本篇覆盖了学习式压缩、多模态联合压缩和任务驱动评价。下一篇红外图像压缩系列（三）将聚焦红外轮廓图与二值边缘图的专门压缩方法：从 CCITT G4、JBIG 到链码、结构保持编码和 Coding for Machines。

References

参考来源

Teledyne FLIR OEM. FLIR Thermal Datasets for Algorithm Training. https://oem.flir.com/solutions/automotive/dataset
Mantel, C., & Forchhammer, S. (2017). Compression of Infrared Images. IS&T Electronic Imaging. PDF
Schaefer, G. et al. An evaluation of lossless compression algorithms for medical infrared images. PubMed abstract. https://pubmed.ncbi.nlm.nih.gov/17282533/
Zhang et al. (2025). Lossy Infrared Image Compression Based on Wavelet Coefficient Probability Modeling and Run-Length-Enhanced Huffman Coding. Sensors. PubMed; MDPI
Bhowmik, N., Barker, J. W., Gaus, Y. F. A., & Breckon, T. P. (2022). Lost in Compression: the Impact of Lossy Image Compression on Variable Size Object Detection within Infrared Imagery. arXiv:2205.08002. https://arxiv.org/abs/2205.08002
Lu, G., Zhong, T., Geng, J., Hu, Q., & Xu, D. (2022). Learning Based Multi-Modality Image and Video Compression. CVPR 2022. CVF Open Access
Wang, H. et al. (2025). End-to-End RGB-IR Joint Image Compression With Channel-wise Cross-modality Entropy Model. arXiv:2506.21851. https://arxiv.org/abs/2506.21851
ARWNet: Auto-Regressive Wavelet Network for Learned Infrared Image Compression. IEEE Xplore record. https://ieeexplore.ieee.org/abstract/document/11442008

红外图像压缩（二）

红外 LIC 的关键改造点

实验设计草案