AnyThermal 论文精读
过去三年,视觉基础模型经历了爆发式增长。DINOv2 用 1.4 亿张互联网图片自监督预训练,产出了通用的 RGB 视觉骨干;SAM 用 10 亿掩码训练出零样本分割能力;CLIP 用 4 亿图文对打通了视觉与语言的语义空间。这些模型的共同前提是:海量、多样、高质量的互联网规模数据。然而,这个前提在热红外域完全不成立。
热红外图像的获取依赖专用传感器(微辐射热计、光子探测器),成本远高于可见光相机;数据采集受限于特定场景(军事侦察、工业检测、安防监控),难以像互联网照片那样自然积累;标注更是稀缺——热红外语义分割数据集 MFNet 仅有约 1,500 张标注图像,最大的 RGB-T 配准数据集也不过数万对。这种数据匮乏直接导致了一个恶性循环:没有大规模预训练数据 → 没有高质量的热红外特征提取器 → 下游任务性能受限 → 领域发展缓慢 → 数据采集投入不足。
在实践中,研究者通常采用两种权宜之计:一是直接使用 RGB 预训练骨干处理热红外图像(将灰度图复制三通道后输入),二是从零开始在有限的红外数据上训练小型网络。前者忽略了热红外图像独特的物理特性——热辐射分布与反射光谱在统计结构上存在本质差异,RGB 预训练特征无法捕获温度场、发射率变化和热对比度等关键信息;后者则受限于数据规模,泛化能力差,在不同环境间迁移时性能急剧下降。
这正是 AnyThermal #AnyThermal-2026 要解决的核心问题:如何在缺乏互联网规模热红外数据的情况下,构建一个任务无关的通用热红外特征编码器? 论文的答案是跨模态知识蒸馏——利用已经拥有丰富语义知识的 RGB 基础模型作为教师,将其表征能力"翻译"到热红外域。这一思路与 红外图像压缩系列 中反复强调的一个主题高度一致:红外图像处理不应孤立进行,而应充分利用可见光域积累的知识和工具。
AnyThermal 的方法论可以用一句话描述:冻结一个 RGB 教师,训练一个热红外学生,用 CLS token 上的对比损失对齐两者的全局语义表示。但这个看似简洁的框架背后,包含了三个经过深思熟虑的设计决策,每一个都对应着一个具体的工程或理论约束。
2.1 Teacher-Student 架构:为什么双方都是 DINOv2 ViT-B/14?
教师网络是冻结的 DINOv2 ViT-B/14,处理 RGB 图像;学生网络是可训练的 DINOv2 ViT-B/14,处理热红外图像(灰度图复制为三通道输入)。两者架构完全相同,且都从 DINOv2 官方预训练权重初始化。
选择同构架构而非异构架构(如 ResNet 教师 + ViT 学生)的原因有二。第一,同构架构使得特征空间具有天然的结构对应性,CLS token 的维度和语义层级一致,对比损失的优化景观更平滑。第二,DINOv2 的自监督预训练赋予了 ViT-B/14 强大的泛化特征——即使未经任何热红外数据微调,仅凭预训练权重初始化的学生网络就已经具备一定的热红外理解能力(实验显示冻结 RGB-DINOv2 在 MFNet 上可达 45.46% mIoU)。蒸馏的目标不是从零教会学生识别热红外内容,而是在已有的泛化基础上注入热红外域特有的特征模式。
教师网络保持冻结至关重要。如果教师也参与训练,它会为了适应学生的特征分布而"降低标准",导致蒸馏信号退化。冻结教师确保了蒸馏目标始终是高质量的 RGB 语义表示,学生必须主动调整自身去匹配这个目标。
2.2 CLS-Token 对比损失:为什么不用 Patch-Level 对齐?
这是 AnyThermal 最核心的设计决策。知识蒸馏中常见的做法是在多个中间层或 patch token 上做特征匹配(如 FitNets、Attention Transfer),但 AnyThermal 刻意选择了仅在最后一层的 CLS token 上使用 InfoNCE 对比损失:
其中 \(z_t^{\text{cls}}\) 和 \(z_s^{\text{cls}}\) 分别是教师和学生的 CLS token 经过 L2 归一化后的向量,\(\tau\) 是温度超参数,分母中的求和遍历 batch 内所有负样本。
选择 CLS token 而非 patch-level 损失有三个深层原因:
第一,语义层级匹配。 DINOv2 的 CLS token 经过自监督训练后,捕获的是图像的全局语义信息(物体类别、场景类型、空间布局),而非颜色、纹理等低级线索。对于跨模态对齐而言,我们期望对齐的恰恰是这种高层语义——RGB 图像中的"行人"和热红外图像中的"行人"在像素级完全不同,但在语义级应该共享相同的表示。Patch-level 特征包含大量模态特有的低级信息(RGB 的颜色纹理 vs 热红外的温度梯度),强行对齐反而会引入噪声。 第二,容忍不对齐数据。 CLS-token 对比损失不要求 RGB-热红外图像对具有像素级的空间对齐或精确的时间同步。只要两张图拍摄的是同一场景(即使视角略有偏移、时间略有先后),它们的 CLS token 就应该相似。这极大地放宽了对训练数据的要求,使得可以使用更多样化但对齐质量参差不齐的数据集——这对于数据稀缺的热红外域至关重要。相比之下,patch-level 损失要求严格的空间对应,任何一个像素的错位都会产生错误的梯度信号。 第三,计算效率。 CLS token 是一个 768 维向量,而 ViT-B/14 的 patch token 是 \(16 \times 16 \times 768\) 的特征图。在 CLS token 上做对比损失的计算开销远低于 patch-level 匹配,这使得可以使用更大的 batch size(增强对比学习的效果)而不受显存限制。InfoNCE 对比损失的直觉
InfoNCE 的本质是一个分类问题:给定教师的 CLS token 作为查询,学生需要从 batch 内所有候选中"认出"正确的那个配对。当 batch size 足够大时,这等价于最大化教师-学生 CLS token 之间的互信息下界。换句话说,学生在学一种映射:把热红外图像的全局语义"翻译"成与 RGB 图像相同语义空间中的点。
2.3 预处理管线:Min-Max → CLAHE → BilateralFilter
热红外图像的原始数据通常是 14-bit 或 16-bit 的温度值或辐射值,动态范围远大于 8-bit RGB 图像。直接将原始值缩放到 [0, 255] 并复制三通道输入 ViT,会导致大量信息丢失和对比度不足。AnyThermal 采用了源自 FireStereo 的三步预处理管线:
Step 1 — Min-Max 归一化。 将每张热红外图像的像素值线性缩放到 [0, 255]:这一步消除了不同传感器、不同场景间的绝对温度差异,使所有图像处于统一的数值范围。
Step 2 — CLAHE(Contrast Limited Adaptive Histogram Equalization)。 自适应直方图均衡化,将图像分成小块(tile),在每个块内独立做直方图均衡,然后用双线性插值消除块边界伪影。CLAHE 的关键优势在于它能增强局部对比度——对于热红外图像中常见的低对比度区域(如温度均匀的建筑墙面、道路表面),CLAHE 能揭示出人眼难以察觉的细微温度梯度变化,这些变化往往对应着重要的结构边缘和轮廓信息。 Step 3 — BilateralFilter(双边滤波)。 在空间域和值域同时进行加权平均,实现"去噪保边"的效果。热红外图像通常比 RGB 图像噪声更大(尤其是非制冷微辐射热计),双边滤波能在抑制噪声的同时保持边缘锐度,避免高斯模糊导致的轮廓信息丢失。这一预处理管线对于红外轮廓图像的预处理同样具有直接参考价值。在 系列(四) 中我们已经指出,红外轮廓图像的有效信息集中在稀疏的边缘结构中,CLAHE 的局部对比度增强和双边滤波的边缘保持特性恰好服务于这一结构特征的提取。
| 预处理步骤 | 作用 | 对轮廓信息的意义 |
|---|---|---|
| Min-Max 归一化 | 统一数值范围,消除传感器差异 | 确保不同来源的轮廓图像在同一尺度上处理 |
| CLAHE | 增强局部对比度,揭示微弱梯度 | 强化温度梯度对应的边缘/轮廓信号 |
| BilateralFilter | 去噪同时保持边缘锐度 | 抑制热噪声但不模糊轮廓边界 |
AnyThermal 的另一项重要贡献是新采集的 TartanRGBT 数据集,以及围绕该数据集展开的一系列数据缩放消融实验。这些实验得出了一个对整个热红外研究领域都具有指导意义的结论。
3.1 TartanRGBT 数据集概况
TartanRGBT 包含 16,943 对硬件同步、像素级配准的 RGB-T 图像,覆盖四种环境类型:
| 环境类型 | 典型场景 | 图像对数(约) | 特点 |
|---|---|---|---|
| 城市 (Urban) | 街道、建筑、停车场 | ~5,000 | 人造结构为主,热源多样 |
| 航拍 (Aerial) | 无人机俯瞰、屋顶、道路网 | ~4,000 | 俯视视角,空间分辨率变化大 |
| 室内 (Indoor) | 走廊、实验室、办公室 | ~4,000 | 封闭空间,温度分布受 HVAC 影响 |
| 越野 (Off-road) | 林地、草地、土路 | ~4,000 | 自然场景,热签名随时间变化 |
数据集的关键质量属性包括:硬件级时间同步(RGB 和热红外相机通过硬件触发信号同步采集,避免运动导致的配准误差);像素级空间配准(通过标定矩阵将两个模态对齐到同一坐标系);环境多样性(四种截然不同的场景类型,覆盖了热红外应用的主要领域)。
3.2 数据缩放消融:多样性 vs 规模的定量证据
AnyThermal 使用 5 个 RGB-T 数据集进行蒸馏训练,包括现有的 LLVIP、KAIST、VEDAI、Boson Nighttime 以及新采集的 TartanRGBT。作者设计了系统的数据缩放实验来回答一个关键问题:增加数据量和增加数据多样性,哪个对蒸馏效果更重要?
实验结果清晰地支持了"多样性优先"的结论:
同域扩展饱和效应。 当持续添加同域(城市)数据时,城市评测集上的性能迅速饱和,而在其他域(航拍、室内、越野)上的性能不仅没有提升,某些指标甚至出现下降。这说明同域数据的边际收益递减极快,且过度拟合单一域会损害跨域泛化能力。 跨域添加一致提升。 每当加入一个新域的数据集,所有任务和所有域的评测指标均获得一致提升。特别是加入 TartanRGBT(覆盖全部四种环境)后,提升幅度最为显著。 单数据集蒸馏失败。 最具说服力的负面结果是:仅使用 Boson Nighttime(航拍场景)单数据集蒸馏的学生网络,在城市任务上的性能甚至不如冻结的 RGB-DINOv2。这意味着单域蒸馏不仅没有学到有用的热红外特征,反而破坏了 DINOv2 预训练权重中已有的泛化知识——蒸馏过程将学生拉向了航拍域的特定分布,使其在其他域上表现更差。对红外压缩研究的启示
这一发现对红外图像压缩的训练数据策略有直接指导意义。在训练学习式红外压缩模型时,与其追求单一场景的大量数据,不如精心构建涵盖多种场景、多种传感器、多种温度条件的多样化训练集。即使总数据量较小,多样性带来的泛化收益也可能远超规模带来的拟合收益。这与 系列(二) 中讨论的多模态联合压缩的数据需求形成了有趣的对照。
AnyThermal 在三个差异显著的下游任务上验证了其通用性:跨模态视觉地点识别(VPR)、热红外语义分割和单目热红外深度估计。每个任务使用不同的 task-specific head,骨干网络均为同一个 AnyThermal ViT-B/14。
4.1 跨模态视觉地点识别 (VPR)
VPR 的任务是给定一张热红外查询图像,从数据库中检索出同一地点的参考图像(可以是 RGB 或热红外)。这是一个典型的跨模态检索问题,对特征的全局语义判别力要求极高。
AnyThermal 使用 SALAD(Sparse and Lightweight Aggregation for Location recognition And Description)作为 VPR head,将 ViT 的 patch tokens 聚合为紧凑的全局描述子。在三个评测数据集上的结果如下:
| 数据集 | AnyThermal R@1 | SALAD(RGB) R@1 | 提升 | 备注 |
|---|---|---|---|---|
| MS2 (Multi-Spectral Seasonal) | 81.11 | 76.97 | +4.14 | 多季节、多时段 |
| CART (Cross-modal Aerial Recognition of Terrain) | 56.00 | 49.38 | +6.62 | 航拍跨模态 |
| OBV (Oxford RobotCar Benchmark VPR) | 53.17 | 38.94 | +14.23 | 城市自动驾驶 |
在 OBV 数据集上,AnyThermal 相比最强基线 SALAD(RGB) 提升了 +14.23 个百分点(53.17 vs 38.94),相对提升达 +36.5%。这一巨大差距说明:在跨模态地点识别这种高度依赖全局语义一致性的任务上,热红外专用蒸馏带来的收益远超简单的 RGB 特征迁移。
4.2 热红外语义分割
语义分割是对特征空间结构化程度要求最高的任务。AnyThermal 仅在 ViT patch features 上附加一个两层 MLP 作为分割 head,就在 MFNet 数据集上达到了 53.47% mIoU 的 SOTA 性能。
| 方法 | mIoU (%) | 推理速度 | 备注 |
|---|---|---|---|
| Frozen RGB-DINOv2 + MLP | 45.46 | — | 无蒸馏,直接迁移 |
| MCNET | 51.95 | 1× (基线) | 此前 SOTA |
| AnyThermal + MLP | 53.47 | 3.6× faster | 本文方法 |
这里有两个值得特别关注的数字。第一,冻结 RGB-DINOv2(45.46%)与 AnyThermal(53.47%)之间 8.01 个百分点的差距,直接量化了"热红外专用蒸馏"的价值——简单地将 RGB 预训练特征迁移到热红外域是不够的,必须通过蒸馏注入热红外域特有的特征模式。第二,AnyThermal 比此前 SOTA 方法 MCNET 快 3.6 倍,因为它的分割 head 只是一个轻量 MLP,而 MCNET 使用了更复杂的多尺度融合架构。
4.3 单目热红外深度估计
深度估计使用 MiDaS 作为 task-specific head,在 MS2 数据集上评估。AnyThermal 取得了 AbsRel = 0.0883 的最佳成绩,相比 EfficientNet-Lite3 基线降低了 13%。深度估计对特征的空间结构敏感度介于 VPR(全局)和分割(逐像素)之间,AnyThermal 在这一任务上的成功进一步验证了其特征的通用性。
4.4 Task-Specific Heads 总结
| 任务 | Head 架构 | 参数量 | 最佳指标 | vs 最强基线 |
|---|---|---|---|---|
| VPR | SALAD (sparse aggregation) | 轻量 | R@1: 81.11 (MS2) | +4.14 vs SALAD(RGB) |
| 语义分割 | 2-layer MLP | 极少 | mIoU: 53.47% (MFNet) | +1.52% vs MCNET |
| 深度估计 | MiDaS head | 中等 | AbsRel: 0.0883 (MS2) | -13% vs EfficientNet-Lite3 |
值得注意的是,三个任务的 head 都非常轻量——最复杂的也只是 MiDaS 的标准 head,最简单的仅是一个两层 MLP。这说明 AnyThermal 骨干本身已经提供了足够丰富的特征表示,下游任务只需简单的线性或浅层非线性投影即可达到 SOTA。这正是"通用基础模型"的核心价值:把复杂性放在预训练阶段,让下游适配尽可能简单。
AnyThermal 本身不是一个压缩方法,但它为红外轮廓压缩提供了四个层面的技术支撑。这些支撑点在 系列(四)Ch2 中已有初步讨论,本节结合 AnyThermal 的具体实验结果做更深入的展开。
5.1 感知损失替代:用 AnyThermal ViT 特征替代 LPIPS
当前学习式图像压缩普遍使用 LPIPS 作为感知损失函数。LPIPS 基于 VGG 或 AlexNet 的 RGB 预训练特征计算感知距离,其隐含假设是"人眼对 RGB 图像的感知一致性"。但对于热红外轮廓图像,这一假设并不成立:人眼对热红外图像的感知方式与 RGB 图像截然不同(我们日常不"看"热辐射),而且轮廓图像的评价标准应该是"下游任务可用性"而非"人眼感知质量"。
AnyThermal 的 ViT patch 特征(\(H/14 \times W/14 \times 768\))提供了一种热红外原生的感知度量。具体而言,可以将压缩重建图像和原始图像分别输入 AnyThermal 编码器,在 patch feature 空间计算 L2 或余弦距离作为感知损失:
其中 \(f_{\text{AnyThermal}}\) 可以是 CLS token(全局感知一致性)或 patch tokens(局部结构一致性),也可以是两者的加权和。由于 AnyThermal 特征已经在三个下游任务上验证了其语义质量,基于这些特征的感知损失有望比 LPIPS 更好地反映热红外轮廓图像的"任务相关性"。
5.2 跨模态边缘蒸馏:RGB 边缘检测器作为教师
AnyThermal 的 CLS-token 对比蒸馏范式可以直接改造用于轮廓压缩的场景。一个自然的扩展是:以高质量的 RGB 边缘检测器(如 HED、DEXTR、TEED)作为教师,训练一个热红外轮廓专用的特征编码器。
这一改造的关键优势在于:CLS-token 级别的对比损失不要求 RGB 边缘图和热红外轮廓图具有像素级的精确对应。在实际场景中,RGB 边缘和热红外轮廓往往不完全重合(因为物体的光学边界和热边界可能不同),但它们在全局语义层面是一致的(都描述了同一组物体的形状和布局)。CLS-token 对比损失恰好能容忍这种局部不对齐,同时保留高层语义结构的一致性。
这种跨模态边缘蒸馏可以与 SA-ICM 的思路结合:SA-ICM 使用 SAM 生成的 RGB 边缘 mask 作为训练监督,但其监督信号仍然是像素级的;如果用 AnyThermal 风格的 CLS-token 对比损失替代像素级 mask 监督,有可能在保持边缘结构信息的同时获得更好的跨域泛化能力。
5.3 ViT Patch 特征用于稀疏轮廓编码
AnyThermal 的实验显示,仅在 ViT-B/14 的 patch 特征上附加一个两层 MLP 就能达到 SOTA 分割性能(53.47% mIoU)。这一结果的深层含义是:ViT patch 特征已经高度结构化且信息密集,它们以一种紧凑的方式编码了图像的空间语义结构。
对于轮廓压缩而言,这提供了一个新的编码思路:不在像素域编码稀疏的轮廓信号,而是将其映射到 ViT patch 特征空间中,在该空间中进行编码。由于特征本身的紧凑性(\(16 \times 16 \times 768\) vs \(224 \times 224 \times 1\))和结构化(每个 patch token 对应一个局部区域的语义摘要),有望实现比像素域更高效的压缩。这与 系列(四)Ch2 中讨论的"特征空间编码"方向一致,也与 Token-based 压缩(如 TiTok、TITOK)的思路形成了呼应。
5.4 预处理管线的复用
AnyThermal 的三步预处理管线(Min-Max → CLAHE → BilateralFilter)对红外轮廓图像的预处理具有直接参考价值。在构建红外轮廓压缩系统时,这一管线可以作为标准化的前端处理模块:
- Min-Max 归一化确保不同传感器、不同温度范围的输入处于统一尺度,避免压缩模型对特定数值范围的过拟合。
- CLAHE增强局部对比度,使微弱的温度梯度变化(往往对应重要的轮廓信息)在预处理阶段就被凸显,减轻后续编码器的负担。
- BilateralFilter在去噪的同时保持边缘锐度,避免热噪声被编码器当作有效信号编码,浪费码率。
特别值得注意的是,这一管线是完全确定性的、无需学习的,因此不会增加压缩系统的训练复杂度,也不会引入额外的编解码延迟。它是一个纯粹的"信号调理"步骤,目的是让后续的神经网络编码器接收到更适合处理的输入信号。
综合展望:AnyThermal 作为红外轮廓压缩的基础设施
将上述四个启示整合起来,可以勾勒出一个基于 AnyThermal 的红外轮廓压缩系统蓝图:预处理采用 Min-Max + CLAHE + BilateralFilter 管线;编码器将轮廓图像映射到 AnyThermal ViT 的 patch 特征空间;熵模型在该特征空间中进行概率建模和码率分配;训练时使用 AnyThermal 特征空间的感知损失替代 LPIPS;可选地,通过跨模态边缘蒸馏进一步增强轮廓特征的判别力。这一蓝图的每个组件都有 AnyThermal 的实验结果作为支撑,其可行性值得在后续工作中系统验证。
AnyThermal 的核心贡献可以归纳为三点:
第一,方法论贡献。 提出了 CLS-token 对比蒸馏这一简洁而有效的跨模态知识迁移范式。该方法不要求像素级对齐的训练数据,不引入复杂的辅助损失,仅通过一个 InfoNCE 损失就将 RGB 基础模型的语义知识成功迁移到热红外域。这一范式的简洁性使其易于复现和扩展。 第二,数据贡献。 发布了 TartanRGBT 数据集(16,943 对 RGB-T 图像),并通过系统的数据缩放实验证明了"数据多样性远比数据规模更重要"这一经验法则。这一发现对整个热红外研究领域的数据采集策略具有指导意义。 第三,实证贡献。 在三个差异显著的下游任务(VPR、分割、深度估计)上均达到 SOTA,且使用的是极其轻量的 task-specific heads。这验证了 AnyThermal 作为通用热红外骨干的有效性,也为后续研究提供了一个可靠的基线和特征提取器。对于红外图像压缩研究而言,AnyThermal 的意义不在于它直接解决了某个压缩问题,而在于它为"如何评价和优化热红外压缩"提供了新的工具和视角。当我们将压缩的目标从"重建像素"升级为"重建语义特征"时,AnyThermal 提供的正是那个"语义特征"的定义者和提取者。
#AnyThermal-2026 Oishi, K., et al. "AnyThermal: Universal Thermal Image Backbone via Cross-Modal Contrastive Distillation." arXiv:2602.06203, 2026.
#DINOv2-2023 Oquab, M., et al. "DINOv2: Learning Robust Visual Features without Supervision." arXiv:2304.07193, 2023.
#FireStereo-2024 Zhang, Y., et al. "FireStereo: Infrared Stereo Matching for Fire Scene Perception." 2024.
#SALAD-2024 Ali-bey, A., et al. "SALAD: Sparse and Lightweight Aggregation for Location recognition And Description." 2024.
#MCNET-2023 Li, J., et al. "MCNET: Multi-Scale Context Network for Thermal Infrared Semantic Segmentation." 2023.
#MiDaS-2020 Ranftl, R., et al. "Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-Shot Cross-Dataset Transfer." IEEE TPAMI, 2020.
#MFNet-2017 Ha, Q., et al. "MFNet: Towards Real-Time Semantic Segmentation for Autonomous Vehicles with Multi-Spectral Scenes." IROS, 2017.
#LLVIP-2021 Jia, X., et al. "LLVIP: A Visible-Infrared Paired Dataset for Low-Light Vision." ICCV Workshop, 2021.
#KAIST-2015 Hwang, S., et al. "Multispectral Pedestrian Detection Benchmark Dataset and Baseline." CVPR, 2015.
#TCLIP-2026 Gupta, A., et al. "T-CLIP: Bridging the Thermal Perception Gap in CLIP via Decoupled Dual LoRA." arXiv, 2026.
文章关系图
43 篇文章 · 62 条连接