ESC
输入关键词搜索文章
目录

SPIRE

ECCV 2026 · 红外小目标检测
单点监督 + 物理先验热图 + encoder-only,用 0.29M 参数颠覆分割范式
0.29M参数量
97.05%F1 (UAVB)
1.02虚警率 Fa
7.68GFLOPs
Part 1
红外小目标检测的第一性原理:定位还是重建?

红外小目标检测(IRSTD)是红外搜索与跟踪系统的基础模块,在军事侦察、边境监控、海上救援中承担着"从杂波背景中找到几个像素大小的热目标"的任务。这些目标极小(典型 2×2 到 9×9 像素)、极暗(信噪比可能仅几个量化级)、极稀疏(一张 640×640 的图上可能只有 1-3 个目标),使得 IRSTD 成为计算机视觉中最具挑战性的检测任务之一 #Ni-2026

主流 IRSTD 方法沿用了语义分割的 encoder-decoder 范式:用密集的像素级掩码标注训练一个 U-Net 风格的分割网络,推理时再通过连通域聚类把分割掩码转换为检测坐标。DNANet #DNANet-2023 用密集嵌套注意力做多尺度融合,SCTransNet #SCTransNet-2024 引入空间-通道交叉 Transformer 建模长程依赖。这些方法的 F1 不断刷新纪录,但代价是越来越重的架构——SCTransNet 用 11.19M 参数、63.22 GFLOPs 换来 F1=97.09%。

SPIRE 动机图
图 1:SPIRE 的动机。现有方法面临三大局限——(a) 像素标注昂贵、正样本极度稀疏;(b) encoder-decoder 架构冗余,依赖大量特征融合和注意力;(c) 分割掩码转检测坐标引入定位不确定性。SPIRE 用单点监督 + encoder-only + 峰值提取同时解决三个问题(来源:SPIRE, Fig.1)

SPIRE 的作者(国防科技大学 NUDT 团队)提出了一个尖锐的问题:IRST 系统真正需要的是可靠的目标定位,而不是精确的轮廓重建。既然小目标只占几个像素,且边界被杂波模糊,那么强迫网络去分割每一个目标像素——然后再把这些像素聚类回坐标——不仅标注昂贵(每张图 11.4s),而且引入了不必要的架构复杂度和定位误差累积 #Ni-2026

一句话概括:SPIRE 将 IRSTD 从"像素级分割 + 连通域聚类"重定义为"质心概率回归 + 峰值提取",用单点标注(每张图仅 1.4s)训练一个 encoder-only 网络(0.29M 参数),在 SIRST-UAVB 上达到 F1=97.05%、Fa=1.02——虚警率比最强基线 SCTransNet 低 5 倍。
Part 2
从分割到回归:一场范式重定义

理解 SPIRE 的价值,需要先看清现有 IRSTD 范式的三重耦合瓶颈。

瓶颈 1:标注成本与监督稀疏

像素级掩码标注面临两个问题。第一是标注成本:MCLC #MCLC-2023 报告,单张红外图像的像素级标注平均需要 11.4 秒,而单点标注(只标注目标质心)仅需 1.4 秒——减少 87.72%。第二是监督稀疏:在 640×640 的输入上,典型目标仅占 4-81 个像素(0.001%-0.02%),极端的前景-背景不平衡导致 BCE 损失的梯度几乎完全被背景主导。

瓶颈 2:架构冗余

为了补偿监督信号的稀疏性,现有方法不得不堆叠多尺度融合和密集连接模块。DNANet 使用密集嵌套注意力在 5 个分辨率尺度间反复融合特征,SCTransNet 引入 Transformer 的长程注意力来抑制背景干扰。这些设计在通用视觉任务中是合理的,但对 IRSTD 来说是"用复杂性补偿监督不足"的间接路线——如果监督信号本身就足够稠密,就不需要这么重的架构来稳定优化。

瓶颈 3:定位不确定性

分割范式还有一个工程层面的隐患:检测坐标不是网络的直接输出,而是分割掩码经过 8-连通域聚类后的副产物。当一个真实目标在掩码上产生多个相邻连通块时(这在低 SNR 条件下非常常见),聚类可能把一个目标拆成多个检测,或者把噪声斑块聚成一个虚假检测——这种从"分割到定位"的转换引入了额外的误差和不稳定性。

维度分割范式 (DNANet, SCTransNet)单点监督分割 (LESPS, MCLC)SPIRE 概率回归
标注形式像素级掩码单点 → 伪掩码单点 → PRPS 热图
架构Encoder-DecoderEncoder-DecoderEncoder-Only
推理掩码 → 连通域聚类掩码 → 连通域聚类热图 → 峰值提取
物理先验红外 PSF 扩散 + 辐射梯度
定位路径间接(分割→聚类)间接(分割→聚类)直接(峰值→坐标)
SPIRE 的核心 insight:如果监督信号能直接编码红外小目标的物理特性(PSF 扩散 + 局部辐射梯度),那么一个轻量的单分支编码器就足以学到结构化的概率响应——不需要 decoder 来重建掩码,也不需要聚类来定位目标。
Part 3
SPIRE 架构详解:PRPS + HRPE + 峰值提取

SPIRE 的整体框架由三个模块组成:PRPS(离线构造监督信号)、HRPE(在线前向预测)、峰值提取(确定性推理)。三者的关系是:PRPS 把单点标注膨胀为与红外物理一致的概率响应图,HRPE 学习从红外图像到概率响应图的回归映射,峰值提取从预测响应图中提取目标质心坐标。

SPIRE 整体框架
图 2:SPIRE 框架。上半部分为 PRPS 监督构造流程(坐标映射 → 高斯先验 → 梯度感知调制 → 概率响应图 P*),下半部分为 HRPE 编码器 + 峰值提取推理(来源:SPIRE, Fig.3)

PRPS:将单点标注变成物理一致的概率响应

PRPS(Point-Response Prior Supervision)是 SPIRE 的第一个核心创新。它要解决的问题是:单点 impulse 监督的梯度太稀疏(在 stride=4 的 160×160 热图上,单个正样本占比仅 0.004%),直接训练会导致梯度饥饿。

PRPS 的思路不是简单地用 Gaussian 替代 impulse,而是把红外小目标的物理成像特性编码进监督信号。具体分三步:

第一步:坐标映射 + 辐射峰值对齐。将原图坐标 $(x_k, y_k)$ 映射到热图网格:
$$(\tilde{x}_k, \tilde{y}_k) = \lfloor (x_k/s, \; y_k/s) + 0.5 \rfloor$$

然后在原图局部邻域中搜索最大强度位置 $(\tilde{x}_k^*, \tilde{y}_k^*)$,使监督中心对齐真实辐射峰值而非标注者的目测位置。

第二步:高斯先验。以辐射峰值为中心构造截断各向同性高斯,模拟红外 PSF(Point Spread Function)的能量扩散:
$$G_k(u,v) = \exp\!\left(-\frac{(u-\tilde{x}_k^*)^2+(v-\tilde{y}_k^*)^2}{2\sigma^2}\right), \quad \|(u,v)-(\tilde{x}_k^*,\tilde{y}_k^*)\|_\infty \le r$$

其中 $\sigma=2$ 控制扩散范围,$r=3\sigma=6$ 定义截断边界。高斯核不归一化(峰值保持为 1),核的有效覆盖面积约 $\pi r^2 \approx 113$ 个热图像素——将监督密度从 0.004% 提升到 0.44%,足以维持稳定的梯度信号。

第三步:梯度感知调制。这是 PRPS 与普通 Gaussian heatmap 的关键区别。从原图提取以目标为中心的 $(2r+1) \times (2r+1)$ patch,做对比度归一化:
$$C_k(u,v) = \frac{I_{patch}(u,v) - I_{patch}^{min}}{I_{patch}^{max} - I_{patch}^{min}}$$

然后将高斯先验与对比度图逐元素相乘:

$$H_k = \text{Norm}(G_k \odot C_k)$$

梯度感知调制的物理含义

$C_k$ 捕获了目标周围的真实辐射强度分布。在均匀背景上,$C_k$ 近似常数,PRPS 退化为标准 Gaussian;在梯度大的边缘(如目标靠近云层边界或热源附近),$C_k$ 使监督信号的形状沿梯度方向变形——更精确地匹配真实目标的能量分布,而非用固定圆形去近似。

多个目标的响应图通过确定性聚合(取逐像素最大值)合并为最终监督图 $\mathbf{P}^*$。即使两个目标的高斯支撑区域重叠,质心回归仍保留各自独立的局部最大值。

HRPE:不需要 Decoder 的高分辨率编码器

HRPE(High-Resolution Probabilistic Encoder)是 SPIRE 的第二个核心创新——一个纯编码器、单分支、单分辨率的轻量网络。

为什么 encoder-only 可行?因为一旦目标判别被建模为结构化概率响应回归(而非像素级掩码重建),就不需要 decoder 来做跨尺度特征补偿——概率响应图的"结构"已经在 PRPS 监督中被编码了。Encoder 只需要学到"从图像到响应图"的回归映射。

HRPE 的结构简洁到可以用一段话描述:

Stem:两个 stride-2 的 3×3 卷积(+BN+ReLU),将分辨率降到 $H/s \times W/s$$s=4$),通道扩到 $C_0=64$。之后接一个 Bottleneck 残差块做初步特征精炼。 Transition:1×1 卷积将通道从 64 降到 $C=32$级联通道重组:在恒定分辨率 $H' \times W'$ 上级联多个 ShuffleNet 风格的通道重组单元。每个单元将 $C$ 通道特征对半拆分为 $F_a$$F_b$$F_a$ 做 identity,$F_b$ 经过 depthwise separable convolution + SE-style channel attention,然后拼接并做 channel shuffle:
$$F' = \text{Shuffle}\!\Big(\text{Cat}\big(F_a,\; \phi_{attn}(\text{DWConv}(F_b))\big)\Big)$$

这个 split–process–shuffle 设计借鉴自 ShuffleNet #ShuffleNet-2018,在极低参数量下实现了有效的跨通道信息交换。

预测头:单个 1×1 卷积将 $C=32$ 通道映射到 1 通道输出 $\hat{\mathbf{P}} \in \mathbb{R}^{H' \times W'}$,不加激活函数,直接回归到 PRPS 目标。
graph LR
  A["输入 I
H×W×1"] --> B["Stem
2× stride-2 conv
C₀=64"] B --> C["Bottleneck
Residual Block"] C --> D["Transition
C=32"] D --> E["Channel
Reorganization
×N"] E --> F["1×1 Conv
→ P̂"] F --> G["峰值提取
→ 检测坐标"] style B fill:#ff8a65,color:#fff style E fill:#ffd54f,color:#333 style F fill:#81c784,color:#fff style G fill:#64b5f6,color:#fff

关键设计选择:为什么 stride=4?

HRPE 在整个网络中保持恒定的 output stride $s=4$。这个选择经过了严格的消融验证:stride=8 时 F1 从 97.05 暴跌到 86.91(-10.14),Fa 从 1.02 飙升到 22.38(+22 倍);stride=2 时 F1 反而下降到 95.25,且 FLOPs 增加到 26.77G。

直觉理解:stride=8 的激进下采样会直接抹除仅占数像素的小目标信号——在高 SNR 条件下也许还能保留,但在杂波主导的红外场景中是致命的。stride=2 虽然保留更多空间细节,但增加了结构冗余,没有带来判别性收益。stride=4 是"保留足够空间分辨率"和"控制计算成本"之间的最优平衡点。
Part 4
训练管线:PRPS 构造 + MSE 回归

SPIRE 的训练管线出奇地简单——不需要多阶段训练、伪掩码生成或课程学习策略。

监督信号离线构造

PRPS 监督图在数据预处理阶段离线构造,不参与网络的前向计算。对于每张训练图像,从单点标注出发,按 stride 映射 → 辐射峰值对齐 → Gaussian 先验 → 对比度调制 → 多目标聚合的顺序生成 $\mathbf{P}^* \in \mathbb{R}^{H' \times W'}$。这个监督图在训练过程中保持固定。

损失函数

SPIRE 使用标准的像素级 MSE 回归损失:

$$\mathcal{L} = \frac{1}{H' W'} \sum_{u,v} \|\hat{\mathbf{P}}(u,v) - \mathbf{P}^*(u,v)\|^2$$

论文特别强调:不需要特殊的 imbalance-aware loss(如 Focal Loss 或 Dice Loss)。原因在于 PRPS 已经通过 Gaussian-like 监督将正样本占比从 0.004% 提升到 0.44%,提供了足够稠密的梯度信号。这与分割范式形成鲜明对比——分割方法必须依赖 weighted BCE 或 Focal Loss 来应对极端不平衡。

配置项披露状态
数据集SIRST-UAVB (3000: 2400/600), SIRST4 (3352: 2285/1067)✅ 论文披露
训练 GPURTX 4090 × 1✅ 论文披露
优化器Adam, lr=0.01✅ 论文披露
LR 调度器ReduceLROnPlateau (factor=0.01, patience=3)✅ 论文披露
Batch size10✅ 论文披露
Epochs400✅ 论文披露
输入分辨率640×640 (UAVB), 512×512 (SIRST4)✅ 论文披露
PRPS σ / r2 / 6✅ 论文披露
Output stride s4✅ 论文披露
BN momentum0.1⚠️ 代码披露(论文未提及)
训练总时间❌ 未披露
Checkpoint 选择策略❌ 未披露

代码与论文的不一致

论文声称使用单通道输入 $\mathbf{I} \in \mathbb{R}^{H \times W \times 1}$,但开源代码中 SPIRENet 的 stem 层实际使用 nn.Conv2d(3, 64, ...)(3 通道输入)。此外,预训练权重文件名标注为 epoch230-lr0.005,与论文声称的 400 epochs + lr=0.01 不一致。复现时需注意这些差异。

Part 5
推理管线:确定性峰值提取

SPIRE 的推理过程不涉及掩码重建、连通域分析或任何学习型后处理——目标坐标通过纯确定性的峰值提取从预测响应图 $\hat{\mathbf{P}}$ 中获取。

四步峰值提取

Step 1:局部最大值提取。用 3×3 max-pooling NMS(stride=1)保留空间局部最大值,抑制邻域内的冗余响应:
$$\hat{\mathbf{P}}_{NMS}(u,v) = \hat{\mathbf{P}}(u,v) \cdot \mathbb{1}\left[\hat{\mathbf{P}}(u,v) = \max_{(u',v') \in \mathcal{N}_{3 \times 3}(u,v)} \hat{\mathbf{P}}(u',v')\right]$$
Step 2:阈值筛选。保留响应值大于阈值 $\tau$ 的候选点,限制最多输出 $N_{max}$ 个检测。 Step 3:亚像素质心细化。每个整数坐标峰值 $(u_0, v_0)$ 用热图响应的一阶有限差分符号确定亚像素偏移方向:
$$\Delta u = \frac{1}{s} \cdot \text{sign}\!\big(\hat{\mathbf{P}}(u_0{+}1, v_0) - \hat{\mathbf{P}}(u_0{-}1, v_0)\big)$$

偏移幅度固定为 $1/s$(stride=4 时为 0.25 像素)。这是一种极度简化的亚像素估计——不如抛物面拟合精确,但计算开销几乎为零。

Step 4:坐标逆映射。将热图坐标通过逆仿射变换 $\mathbf{T}^{-1}$ 映射回原图空间:
$$\begin{pmatrix} x_{det} \\ y_{det} \end{pmatrix} = \mathbf{T}^{-1} \begin{pmatrix} u_0 + \Delta u \\ v_0 + \Delta v \\ 1 \end{pmatrix}$$
推理流程对比:分割方法的推理链路是"网络输出掩码 → 二值化 → 8-连通域聚类 → 计算簇质心",涉及多个可调参数(二值化阈值、连通域最小面积)且容易将一个目标的多个相邻掩码碎片聚为多个检测。SPIRE 的链路是"网络输出热图 → NMS → 阈值 → 亚像素细化",每一步都是确定性的,没有可调参数(除了全局阈值 $\tau$),且天然保证每个目标只产生一个峰值。
Part 6
实验配置与结果分析

评估协议

SPIRE 采用质心级评估:预测检测与真实质心的欧氏距离 $\le \delta=5$ 像素则判为 TP。所有方法(包括分割方法)的输出都被转换为质心坐标后统一评估,确保比较的公平性。报告指标包括 Precision、Recall(即检测概率 Pd)、F1 和虚警率 Fa($= FP / N_{pixels}$)。

主实验:SIRST-UAVB + SIRST4

方法会议SIRST-UAVBSIRST4FLOPs(G)Params(M)
PreRecF1FaPreRecF1Fa
ACMWACV'2187.0171.1678.2934.0490.1770.3879.0544.082.510.40
DNANetTIP'2394.4889.5491.9515.7793.9981.2087.1329.8289.134.70
SCTransNetTGRS'2498.2795.9597.095.0981.2086.3983.72114.9863.2211.19
SDSNetTGRS'2597.6096.2996.947.1287.3588.2787.8173.4842.422.49
L²SKNetTGRS'2595.8389.0492.3111.7092.8991.4292.1640.2043.090.90
SPIRE99.8294.4497.051.0295.0094.2194.6028.537.680.29
关键发现 1:在 SIRST-UAVB 上,SPIRE 的 Precision 达到 99.82%(SOTA),虚警率仅 1.02×10⁻⁸——比第二低的 SCTransNet (5.09) 低 5 倍,比 DNANet (15.77) 低 15 倍。F1=97.05% 与 SCTransNet 的 97.09% 基本持平,但参数量仅为 SCTransNet 的 1/38。
关键发现 2:在 SIRST4 上,SPIRE 全面领先——F1=94.60%(比第二名 L²SKNet 高 2.44 个点),同时 FLOPs 比 SCTransNet 少 8 倍,参数量比 DNANet 少 16 倍。这说明 encoder-only 概率回归在更复杂的数据集上优势更明显。
性能-效率对比
图 3:SPIRE 在 SIRST-UAVB 上的性能-效率权衡。气泡大小表示参数量。SPIRE 在保持高 F1 和 Precision 的同时,参数量和 FLOPs 都远低于竞品(来源:SPIRE, Fig.2)

消融实验 1:PRPS 监督形式

监督形式PreRecF1Fa
PRPS (σ=2, r=6)99.8294.4497.051.02
单点 impulse98.7190.2294.272.85
无约束 Gaussian98.9393.7696.282.44

PRPS 比 impulse 监督高 2.78 个 F1,Fa 低 2.8 倍;比纯 Gaussian 高 0.77 个 F1,Fa 低 2.4 倍。Impulse 的梯度饥饿导致 Recall 下降 4.22 个点;纯 Gaussian 缺乏辐射梯度调制,虚警控制不如 PRPS。

PRPS 消融可视化
图 4:PRPS 消融可视化。红色矩形为真实目标,红色圆圈为 TP,橙色圆圈为 FN。Impulse 监督产生多个虚假响应峰,纯 Gaussian 在杂波区域判别性不足,PRPS 产生单一干净的主峰(来源:SPIRE, Fig.4)

消融实验 2:HRPE 分辨率与组件

变体PreRecF1FaFLOPsParams(10⁻²M)
HRPE (s=4)99.8294.4497.051.027.6829.47
s=299.6391.2395.250.8126.7726.56
s=890.0583.9886.9122.383.0533.27
w/o channel reorg97.7093.9095.765.337.7029.45
w/o reweighting96.5293.7195.098.157.7229.63
消融发现:stride=8 导致 F1 暴跌 10 个点——验证了"高分辨率表征是 IRSTD 生命线"。去掉 channel reorganization 主要影响虚警控制(Fa 从 1.02 升至 5.33),去掉 SE-style reweighting 影响更大(Fa 升至 8.15)。说明通道交互和自适应权重对抑制虚假峰值至关重要。

定性对比

定性对比结果
图 5:SPIRE 与分割方法的定性对比。红框为真实目标,红圈为 TP,绿圈为 FP,橙圈为 FN。分割方法(DNANet, SCTransNet)常在单个目标周围产生多个相邻掩码响应,聚类后生成多余检测。SPIRE 每个目标只产生一个主峰,定位更干净(来源:SPIRE, Fig.5)
Part 7
减法哲学的启示与局限

SPIRE 在研究版图上的位置

SPIRE 站在三条研究线索的交汇点上:单点监督(LESPS #LESPS-2023、MCLC #MCLC-2023 验证了标注效率的可行性)、热图回归(HRNet #HRNet-2019 确立了峰值提取范式)、轻量架构(ShuffleNet #ShuffleNet-2018 提供了通道重组组件)。它的创新不在于任何一条线索的深化,而在于将三者同时做到极致,并彻底删除 decoder——这种"减法"在当前"加法为主"的 IRSTD 领域是反直觉的。

可操作的研究启发

第一,物理先验应该编码进监督信号而非网络结构。PRPS 的对比度调制比在 encoder 中加入物理约束更简单、更可控。这一思路可以迁移到其他有物理成像模型的任务中(如 SAR 目标检测、医学影像定位)。

第二,encoder-only 在"回归型"任务上有天然优势。当输出不是密集分割而是稀疏坐标/热图时,decoder 的多尺度融合收益有限,甚至引入冗余。这对设计实时 IRST 系统有直接的工程价值。

第三,centroid-level 评估改变了 IRSTD 的竞争格局。SPIRE 的 Precision 99.82% 和 Fa 1.02 在像素级 IoU 评估下可能不占优势,但在"能否准确定位目标"这一下游任务的核心需求上,它的优势非常明显。

局限与开放问题

局限性

1. 代码与论文不一致:输入通道数(1 vs 3)、训练配置(400 epochs/lr=0.01 vs 权重文件名标注的 230 epochs/lr=0.005)存在矛盾,影响精确复现。

2. 评估协议的宽容性:δ=5 像素的质心匹配阈值对 2-9 像素的目标来说相当宽松,可能掩盖定位精度的真实差异。

3. 跨域泛化未验证:仅在两个数据集上测试,未评估跨传感器、跨场景的泛化能力。PRPS 的 σ 和 r 是否需要在新的红外成像条件下重新标定,是一个开放问题。

4. 亚像素精度有限:sub-pixel refinement 使用 ±1/stride 的固定偏移,不如抛物面拟合精确。对于需要亚像素定位精度的应用(如目标测距),可能不够。

与红外图像压缩系列的关联

红外图像压缩系列 的核心主张之一是:红外压缩需要在低码率下保留对下游任务(检测、识别、测温)真正重要的信息。SPIRE 的 centroid-level 概率回归为"什么信息是重要的"提供了一个精确答案——目标质心位置的可靠估计比像素级轮廓重建更重要。这意味着一个面向 IRSTD 的压缩系统不需要保留目标的精确形状,只需要保证热图响应的主峰位置不被偏移——这是一个比 PSNR/MSSIM 更符合下游任务需求的压缩目标。

上一篇精读 RPCASSM 从稀疏-低秩分解角度解决 IRSTD,SPIRE 则从概率回归角度切入——两者代表了 IRSTD 领域"轻量化"浪潮的两种不同哲学。

参考来源

  • Ni, R. et al. "Rethinking IRSTD: Single-Point Supervision Guided Encoder-only Framework is Enough for Infrared Small Target Detection." arXiv:2604.05363, 2026. arXiv · Code
  • Li, B. et al. "Dense Nested Attention Network for Infrared Small Target Detection." IEEE TIP, 2023.
  • Chen, M. et al. "SCTransNet: Spatial-Channel Cross Transformer for Infrared Small Target Detection." IEEE TGRS, 2024.
  • Wang, R. et al. "MCLC: Multi-level Constraints for Single-point Supervised Infrared Small Target Detection." 2023.
  • Wu, X. et al. "LESPS: Label-efficient Infrared Small-target Detection via Single-point Supervision." CVPR, 2023.
  • Sun, K. et al. "Deep High-Resolution Representation Learning for Visual Recognition." CVPR, 2019.
  • Ma, N. et al. "ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design." ECCV, 2018.