ESC
输入关键词搜索文章
目录

RPCASSM

arXiv 2026 · 红外小目标检测
鲁棒 PCA 状态空间模型,0.45M 参数实现 ISTD SOTA
0.45M参数量
95.98%mIoU
98.62%检测率 Pd
2.22×10⁻⁶虚警率 Fa
Part 1
为什么需要红外小目标检测

红外小目标检测(ISTD)是军事侦察、海上搜救、边境监控等场景中的核心技术。它的任务是:在红外图像中找出仅占数个像素、缺乏形状纹理特征的远距离弱小目标。

RPCASSM 动机图
图 1:RPCASSM 动机图。左栏展示红外小目标检测的挑战(目标微小、信噪比低),中栏分析现有方法瓶颈,右栏提出本文思路(来源:RPCASSM, Fig.1)

三重核心挑战

极低信噪比(Low SNR):远距离红外成像条件下,目标信号强度与背景噪声接近,目标像素灰度值可能仅比周围背景高出数个量化级别。 背景杂波干扰:云层边缘、地表热辐射不均匀区域等背景结构在空间频率和局部对比度上与真实目标高度相似,产生大量类目标虚警源。 目标信息极度匮乏:目标仅占数个像素(典型 2×2 到 9×9),任何下采样操作都可能导致目标信号被完全抹除或与背景平均化;同时缺乏纹理、形状等高级语义线索。

本文核心主张

RPCASSM 的核心洞察是:红外图像的物理成像特性天然满足鲁棒主成分分析(RPCA)分解假设——背景低秩、目标稀疏。这一先验不应仅作为正则化项,而应成为网络架构本身的归纳偏置。

基于此,RPCASSM 提出了双分支状态空间模型:BSSM 建模背景的全局低秩结构,TSSM 聚焦目标的稀疏结构。以仅 0.45M 参数在 NUDT-SIRST 上达到 mIoU 95.98%、Pd 98.62%、Fa 2.22×10⁻⁶,全面超越 10 个 SOTA 方法。

作者与机构

第一作者:Pingping Liu(刘萍萍,吉林大学计算机科学与技术学院教授)
共同作者:Aohua Li、Yubing Lu、Jin Kuang、Tongshun Zhang、Qiuzhan Zhou
通讯作者:Pingping Liu(liupp@jlu.edu.cn)
机构:吉林大学计算机科学与技术学院、吉林大学软件学院、长江大学地球科学学院
代码github.com/PepperCS/RPCASSM(承诺开源,截至撰写时仅有 README)
Part 2
为什么主流 VSSM 不适合 ISTD

当前主流的视觉状态空间模型(如 VMamba、Vim)在设计上存在与 ISTD 任务的三重架构失配。

RPCASSM 整体架构
图 2:RPCASSM 整体架构。采用 k-stage 迭代框架,每个 stage 包含 BEM(背景提取)和 TEM(目标提取)两个核心模块(来源:RPCASSM, Fig.2)

失配 1:下采样致命

现有 VSSM 通常在 stem 阶段通过步长大于 1 的卷积进行激进下采样以降低序列长度。这对通用视觉任务是合理的效率权衡,但对 ISTD 是致命的——几个像素的目标在下采样后要么完全消失,要么其关键的像素级对比度模式被周围背景平均掉。

失配 2:扫描模式不匹配

现有 VSSM 的扫描模式(如 VMamba 的 cross-scan)是为捕获语义级和结构级长程依赖而优化的,其序列化粒度与扫描顺序针对自然图像的物体边界和区域一致性设计,而非保留像素级极值信号。

失配 3:因果约束阻碍边缘重建

SSM 的因果约束意味着序列中后续位置无法影响先前位置的隐藏状态。当目标信号在序列化过程中被分散到不同时间步时,这种单向性进一步阻碍了完整目标边缘的重建。

RPCA 与红外图像的天然联系

红外背景在空间上呈现高度的平滑性和冗余性——相邻像素之间存在强相关性,整个背景矩阵可以用低秩结构良好近似;而红外小目标在空间上表现为孤立的、稀疏的高亮异常点,恰好对应 RPCA 框架中的稀疏分量。因此,将红外图像分解为低秩背景 $B$ 和稀疏目标 $T$(即 $D = B + T$)不仅是一个数学上的便利假设,而是有坚实物理基础的建模选择。

Part 3
RPCASSM 架构详解

RPCASSM 的整体架构是对鲁棒主成分分析(RPCA)交替优化算法的深度展开(Deep Unfolding)。在经典 RPCA 框架中,红外图像 $D$ 被分解为低秩背景 $B$ 和稀疏目标 $T$,通过反复交替更新两个分量来逼近最优解。RPCASSM 将这一迭代过程直接映射为网络的层级结构:每个 stage 对应一次完整的 B-T 更新循环,$k$ 个相同结构的 stage 串联构成完整网络(最优 $k=3$)。

前置知识回顾

RPCA 原始优化目标

经典鲁棒 PCA 将矩阵分解为低秩分量 + 稀疏分量,优化目标为:

$$\min_{\mathbf{B,T}}\mathcal{L}(\mathbf{B,T}) = \mathcal{R}(\mathbf{B}) + \lambda \mathcal{S}(\mathbf{T}) + \frac{\mu}{2}\|\mathbf{D - B - T}\|_F^2$$

其中 $\mathcal{R}(\cdot)$$\mathcal{S}(\cdot)$ 分别是背景和目标的正则化项,$\lambda$$\mu$ 平衡各项贡献。RPCASSM 将这一优化问题的求解过程展开为神经网络的前向传播。

SSM 基本方程

状态空间模型(State Space Model)通过隐藏状态的递归演化捕获序列动态依赖,核心方程为:

$$\mathbf{h}_{t} = \mathbf{A}\mathbf{h}_{t-1} + \mathbf{B}\mathbf{x}_{t}$$
$$\mathbf{y}_{t} = \mathbf{C}\mathbf{h}_{t} + \mathbf{D}\mathbf{x}_{t}$$

其中 $\mathbf{h}_t$ 为隐藏状态,$\mathbf{x}_t$ 为输入,$\mathbf{y}_t$ 为输出。矩阵 $\mathbf{A}$$\mathbf{B}$$\mathbf{C}$$\mathbf{D}$ 分别表示状态转移矩阵、输入矩阵、输出矩阵和前馈矩阵。Mamba 的选择性机制使 $\mathbf{B}$$\mathbf{C}$$\Delta$(离散化步长)变为输入依赖的时变参数。

交替迭代公式

这个公式是整个 RPCASSM 的数学骨架,定义了每个 stage 如何从上一阶段的估计出发,产生更精确的背景和目标表示。

$$\mathbf{B}^k = \mathbf{B}^{k-1} - \mathbf{T}^{k-1} + \varphi^{k}\mathcal{R}^{k}(\mathbf{B}^{k-1} - \mathbf{T}^{k-1})$$
$$\mathbf{T}^k = \mathbf{T}^{k-1} - \mathbf{B}^{k} + \psi^{k}\mathcal{S}^{k}(\mathbf{T}^{k-1} - \mathbf{B}^{k})$$

符号解释

  • $\mathbf{B}^k, \mathbf{T}^k \in \mathbb{R}^{H \times W}$:第 $k$ 个 stage 输出的背景和目标估计
  • $\varphi^k, \psi^k$:可学习标量参数,控制每步更新的幅度(类似自适应学习率),初始化为 0.1
  • $\mathcal{R}^k(\cdot)$:BEM 的整体映射(ResBlock + BSSM),提取输入中的低秩背景结构
  • $\mathcal{S}^k(\cdot)$:TEM 的整体映射(ResBlock + DifBlock + TSSM),提取输入中的稀疏目标结构
直觉理解:以背景更新为例,$\mathbf{B}^{k-1} - \mathbf{T}^{k-1}$ 是"去除当前目标估计后的纯背景残差"。$\mathcal{R}^k$ 对这个残差做低秩建模,提取其中的全局平滑结构。$\varphi^k$ 控制这一步的"信任度":值越大,越依赖 BEM 的新发现;值越小,越保守地保留旧估计。注意目标更新使用的是本阶段刚更新的 $\mathbf{B}^k$ 而非旧的 $\mathbf{B}^{k-1}$,这是 Gauss-Seidel 型交替优化的特征,相比 Jacobi 型通常收敛更快。

BSSM/SPCM:空间探针扫描机制

SPCM 结构图
图 3:SPCM(Spatial Probe Convolution Module)结构。通过空间探针扫描机制,利用可学习的探针对特征图进行局部感知(来源:RPCASSM, Fig.3)

BSSM 的核心是空间探针扫描机制(SPCM),其设计动机是利用红外背景在空间轴上的异质性来定位和建模背景区域。SPCM 不直接在二维特征图上运行 SSM,而是将二维特征投影到一维空间轴上分别建模,再重新组合。

Step 1:空间轴投影
$$\mathbf{M}_{H/W} = Conv1d(Avg_{H/W}(\mathbf{I}))$$

对输入背景特征分别沿高度轴和宽度轴做全局平均池化,得到两条一维空间表示。平均池化保留了空间轴上的全局统计分布(如某一行整体偏亮或偏暗),这正是背景低秩特性的体现;而目标由于极度稀疏,在平均后被大幅稀释,从而实现了隐式的背景-目标分离。

Step 2:KAN 参数生成
$$B, C, \Delta = Kan(\mathbf{M}_{H/W})$$

使用 Kolmogorov-Arnold Network(KAN)从空间轴表示中生成 SSM 的三个关键参数:$B$(输入矩阵)、$C$(输出矩阵)、$\Delta$(离散化步长)。KAN 相比传统 MLP 具有更强的函数逼近能力和参数效率。

Step 3:双向 SSM 扫描
$$\mathbf{O}_{H/W} = \mathbb{S}_{B,C,\Delta}^{for}(\mathbf{M}_{H/W}) + \mathbb{S}_{B,C,\Delta}^{back}(\mathbf{M}_{H/W})$$

对每条空间轴表示分别进行正向和反向 SSM 扫描并相加,消除 SSM 因果约束带来的方向偏差。

Step 4:轴特征重组
$$\mathbf{O}_{H}, \mathbf{O}_{W} = \mathbf{O}_{H/W}$$
$$\mathbf{O}_{B} = \mathbf{O}_{H} \cdot \mathbf{O}_{W}$$

将两条轴的输出特征通过逐元素相乘重组为二维背景特征。这种分解-重组策略的计算复杂度远低于直接在 $H \times W$ 序列上运行 SSM,同时天然契合背景的低秩假设。

TSSM/DPCM:可变形提示扫描机制

DPCM 结构图
图 4:DPCM(Deformable Prompt Convolution Module)结构。引入可变形提示扫描机制,通过自适应调整采样位置来捕获不同尺度和形状的小目标特征(来源:RPCASSM, Fig.4)

TSSM 的核心是可变形提示扫描机制(DPCM),其设计理念是利用目标的稀疏性和局部高亮特性,将计算资源集中到可能的目标区域,避免在全图均匀分配 SSM 算力造成的浪费和边缘模糊。

Step 1:密度图聚类与阈值分割
$$\mathbf{P}_{T}, \mathbf{P}_{B} = Split(G_{cluster}(Avg(\mathbf{I})), G_{offsets}(\mathbf{I}))$$

对输入特征做平均池化得到密度热力图,通过自适应阈值将其二值化为目标区域掩码:

$$M_{mask} = \mathbbm{1}(M_{density} > T_s)$$
$$\gamma = \min[\gamma \in \mathbb{N} \mid \mathbbm{1}(M_{density} > T_s) > 0]$$
$$T_s = T_{init} - \gamma \cdot \Delta T$$

阈值从初始值 $T_{init}=0.7$ 开始,以步长 $\Delta T$ 递减,直到至少产生一个前景区域。这一自适应机制确保了即使在不同场景下目标亮度差异很大,也能可靠地提取出候选目标区域。

Step 2:可变形偏移学习

引入可变形卷积的偏移学习机制 $G_{offsets}(\cdot)$,对目标区域的边界进行精细化调整,使网络能够学习到目标实际形状与初始矩形提示之间的几何偏差。

Step 3:协同控制矩阵
$$\mathbf{D}_B = Linear_{w_B}(\tau), \quad \mathbf{D}_T = Linear_{w_T}(\tau)$$

协同控制矩阵 $\tau$ 作为共享的信息枢纽,同时调节目标和背景的前馈矩阵,防止目标区域因像素极少而在梯度更新中被背景区域淹没。

Step 4-5:分区差异化处理

背景区域采用简单 Linear 映射:$\mathbf{Y}_B = \mathbf{D}_B \cdot \mathbf{P}_B$

目标区域使用带 Cross-Scan Module(CSM)的 SSM:$\mathbf{Y}_T = \mathbb{S}_{\mathbf{D}_T}^{CSM}(\mathbf{P}_T)$

Step 6:特征拼接
$$\mathbf{M}_{O} = Cat(\mathbf{Y}_{B}, \mathbf{Y}_{T})$$

将两个区域的输出在空间维度上拼接回完整的特征图。

DifBlock:差分卷积增强

DifBlock 位于 TEM 中 ResBlock 之后、TSSM 之前,通过空间差分运算初步增强目标的显著性。

$$\phi(\cdot) = \sum_{i=1}^{N}\sum_{j=1}^{N}w_{ij} \cdot \left(N^{2}f_{ij} - \sum_{k=-N/2}^{N/2}\sum_{l=-N/2}^{N/2}f_{i+k,j+l}\right)$$

括号内的表达式 $N^2 f_{ij} - \sum f_{i+k,j+l}$ 本质上是中心像素值的 $N^2$ 倍减去其 $N \times N$ 邻域内所有像素值之和,等价于 $(N^2-1) f_{ij} - \sum_{(k,l) \neq (0,0)} f_{i+k,j+l}$,即中心像素与邻域均值的加权差。对于均匀背景区域,该差值趋近于零;对于孤立的高亮目标像素,该差值显著为正。因此 DifBlock 起到了空间高通滤波器的作用。

维度RPCANetLSDSSMsVMambaRPCASSM
核心表示RPCA + CNN 正则化低秩稀疏 + 单向 SSM通用 VSSMRPCA + 双分支 SSM
背景建模核范数(CNN 实现)SSM 隐式建模无显式背景建模BSSM/SPCM 轴投影+双向SSM
目标建模L1(CNN 实现)单向 SSM通用 tokenTSSM/DPCM 可变形提示+CSM
RPCA 集成深度浅层(仅正则化)中层(架构灵感)深层(迭代=网络stage)
扫描策略无(纯 CNN)单向扫描Cross-scan(4方向)分区差异化:目标CSM+背景Linear
空间分辨率全分辨率全分辨率下采样后处理全分辨率(无下采样stem)
参数量0.67M0.37M~30M0.45M
NUDT mIoU91.30%94.59%95.98%
NUDT Fa ($10^{-6}$)17.993.772.22
IRSTD-1K mIoU60.53%68.14%68.44%

表 1:RPCASSM 与主要竞争方法的技术对比。

Part 4
训练管线:渐进式优化

渐进式 IoU Loss

RPCASSM 由 k 个相同结构的 stage 串联而成,每个 stage 都会输出一个中间稀疏目标估计 $\mathbf{T}^i$。为了确保梯度在多层迭代结构中有效传播,论文采用了渐进式 IoU Loss 作为训练目标:

$$\mathcal{L}_{total} = \mathcal{L}_{IoU}(\mathbf{T}^{k}, \mathbf{Y}) + \sum_{i=1}^{k-1}\alpha \cdot \mathcal{L}_{IoU}(\mathbf{T}^{i}, \mathbf{Y})$$

其中 $\mathcal{L}_{IoU}$ 是标准的 soft IoU loss,其像素级定义为:

$$\mathcal{L}_{IoU}(\mathbf{T}, \mathbf{Y}) = 1- \frac{\mathbf{T} \cap \mathbf{Y}}{\mathbf{T} \cup \mathbf{Y}} = 1- \frac{\sum_{n}(\mathrm{T}_n \cdot \mathrm{Y}_n)}{\sum_{n}(\mathrm{T}_n + \mathrm{Y}_n - \mathrm{T}_n \cdot \mathrm{Y}_n)}$$

其中 $\mathbf{Y}$ 为真实标签,$\mathrm{T}_n$$\mathrm{Y}_n$ 分别表示预测和标签在第 $n$ 个像素位置的值。

深层监督的必要性

如果仅对最终输出 $\mathbf{T}^k$ 施加监督信号,中间阶段的 BEM 和 TEM 模块可能学到无意义的表示,导致梯度在经过多个 stage 的反向传播后逐渐消失。渐进式 loss 为每个中间阶段提供了辅助梯度通路,确保每一级迭代都能产出有意义的目标估计,形成从粗到精的渐进细化过程。

alpha=0.01 的选择理由:最终阶段 $\mathbf{T}^k$ 的损失权重为 1.0,而中间阶段 $\mathbf{T}^i$ (i<k) 的权重仅为 $\alpha=0.01$。当 k=3 时,中间阶段的总损失权重为 2 × 0.01 = 0.02,仅占最终阶段权重的 2%。超参数实验验证了这一选择:当 $\alpha$ 增大到 0.03 时,Fa 从 2.22 恶化至 6.66(上升 200%),说明过强的中间约束反而干扰了最终阶段的精细优化。

训练配置

配置项披露状态
数据集NUDT-SIRST, IRSTD-1K论文披露
数据划分1:1 随机分割论文披露
输入分辨率256×256(双线性插值)论文披露
GPU单张 NVIDIA GeForce RTX 4070 Ti SUPER论文披露
深度学习框架PyTorch论文披露
优化器Adam论文披露
初始学习率5×10⁻⁴论文披露
学习率调度decay schedule未完整披露
Batch size8论文披露
Epochs800论文披露
数据增强random flipping, rotation论文披露
可学习参数初始化 $\varphi^k, \psi^k$0.1论文披露
Stage 数 k3论文披露(消融实验)
损失权重 $\alpha$0.01论文披露(消融实验)
阈值初始化 $T_{init}$0.7论文披露(消融实验)
阈值递减步长 $\Delta T$自适应未完整披露

表 2:RPCASSM 训练配置及论文披露状态。

训练成本

  • 硬件:单卡 NVIDIA GeForce RTX 4070 Ti SUPER(16GB VRAM)
  • 训练时间:未披露。论文仅说明了 800 epochs 和 batch size=8,但未报告总训练时长
  • FLOPs:未披露。Table 2 的 caption 明确提及"Flops(G)"作为评估指标之一,但实际表格中并未包含
  • 参数效率:RPCASSM 以 0.45M 参数实现了 SOTA 性能,在所有对比方法中排名第三低(仅次于 LSDSSMs 的 0.37M 和 ALCNet 的 0.42M)
Part 5
推理流程:k 次迭代交替优化

RPCASSM 的推理过程是其训练过程的确定性前向传播,无需额外的后处理或测试时增强。

推理步骤

  1. 初始化:给定输入红外图像 $I$,设置背景初始估计 $\mathbf{B}^0 = I$,目标初始估计 $\mathbf{T}^0 = 0$(零矩阵)。这对应 RPCA 分解的起点:假设整幅图像都是背景,尚无目标被检测到。
  2. 迭代 k=3 次(Stage i = 1, 2, 3):每个 stage 执行 Gauss-Seidel 型交替更新:
    • BEM 更新(背景提取):计算残差 $\mathbf{R}_B = \mathbf{B}^{i-1} - \mathbf{T}^{i-1}$,将其送入 ResBlock 进行局部特征提取,再经 BSSM/SPCM 进行全局低秩建模,得到更新后的背景估计 $\mathbf{B}^i = \mathbf{B}^{i-1} - \mathbf{T}^{i-1} + \varphi^i \cdot \mathcal{R}^i(\mathbf{R}_B)$
    • TEM 更新(目标提取):使用本阶段已更新的 $\mathbf{B}^i$(而非上一阶段的 $\mathbf{B}^{i-1}$),计算残差 $\mathbf{R}_T = \mathbf{T}^{i-1} - \mathbf{B}^i$,依次经过 ResBlock(局部特征)、DifBlock(差分增强)和 TSSM/DPCM(稀疏建模),得到更新后的目标估计 $\mathbf{T}^i = \mathbf{T}^{i-1} - \mathbf{B}^i + \psi^i \cdot \mathcal{S}^i(\mathbf{R}_T)$
  3. 输出:第 k=3 个 stage 的目标估计 $\mathbf{T}^3$ 即为最终检测结果。该结果是一个与输入同尺寸的概率图,高值区域对应检测到的红外小目标。
自适应阈值机制:推理过程中 DPCM 的自适应阈值机制会在每个 stage 自动运行:从 $T_{init}=0.7$ 开始,以步长 $\Delta T$ 逐步降低阈值,直到密度图中至少找到一个前景区域。这确保了在不同场景下都能自适应地定位目标候选区域,无需人工干预。

推理成本

  • 参数量:0.45M。在所有 11 个对比方法中排名第三低,仅高于 LSDSSMs(0.37M)和 ALCNet(0.42M)
  • 迭代次数:固定 3 次(k=3)。这是通过超参数实验确定的最优值,对应 RPCA 交替优化的典型收敛步数
  • 推理时间:未披露。论文未报告 FPS、单张图片推理延迟或吞吐量等任何推理速度指标
  • 内存占用:未披露。由于采用全分辨率(256×256)处理且无下采样 stem,SSM 的序列长度为 256×256=65536
Part 6
实验验证:SOTA 性能

主实验结果

MethodParams(M)NUDT mIoUNUDT PdNUDT Fa(10⁻⁶)NUDT FIRSTD mIoUIRSTD PdIRSTD Fa(10⁻⁶)IRSTD F
ACM (WACV2021)0.5266.8095.2422.5280.0952.7084.5465.8669.03
ALCNet (TGRS2021)0.4271.0895.2419.3283.1057.8289.0052.4773.27
DNANet (TIP2022)4.6992.1497.649.3995.9162.8791.1355.6377.20
AGPCNet (TAES2023)12.3683.7297.1417.6791.1461.4189.6926.6276.09
UIUNet (TIP2023)50.5490.5297.808.3495.0265.6991.2423.4779.31
MSHNet (CVPR2024)4.0691.6497.783.5895.6456.0688.6629.7571.84
RPCANet (WACV2024)0.6791.3097.4617.9995.4560.5388.6637.8075.41
SCTransNet (TGRS2024)11.1994.5897.133.7097.2166.4690.0327.8679.85
LSDSSMs (TGRS2025)0.3794.5997.523.7797.2268.1486.6024.8081.05
DRPCA-Net (TGRS2025)1.1694.1997.4113.7197.0165.2390.7223.0978.95
RPCASSM (Ours)0.4595.9898.622.2297.9568.4492.4422.3181.26

表 3:RPCASSM 与 10 个 SOTA 方法在 NUDT-SIRST 和 IRSTD-1K 上的定量对比。

NUDT-SIRST 数据集解读

RPCASSM 在 NUDT-SIRST 上实现了四项指标的全面领先:

  • mIoU 95.98%:超越第二名 LSDSSMs(94.59%)1.39 个百分点,超越第三名 SCTransNet(94.58%)1.40 个百分点
  • Pd 98.62%:所有方法中最高,意味着几乎不漏检任何目标像素
  • Fa 2.22×10⁻⁶:所有方法中最低的虚警率,相比前代最佳 MSHNet(3.58×10⁻⁶)降低了 38%
  • F-measure 97.95%:综合表现最优

从参数效率角度看,RPCASSM 以仅 0.45M 参数取得上述成绩。UIUNet 使用 50.54M 参数(RPCASSM 的 112 倍),mIoU 仅为 90.52%,说明单纯堆砌参数对 ISTD 任务收效甚微。与传统 RPCA 方法 RPCANet 相比,RPCASSM 的 mIoU 提升了 4.68 个百分点(91.30 → 95.98),Fa 从 17.99 降至 2.22(降低 87.7%)。

IRSTD-1K 数据集解读

IRSTD-1K 场景更多样、难度更高,所有方法的绝对性能均有下降。RPCASSM 在该数据集上同样取得四项指标第一:mIoU=68.44%(超越 LSDSSMs 的 68.14%),Pd=92.44%(大幅超越 LSDSSMs 的 86.60%,提升 5.84 个百分点),Fa=22.31×10⁻⁶(最低),F-measure=81.26%(超越 LSDSSMs 的 81.05%)。

NUDT-SIRST ROC 曲线
图 5:NUDT-SIRST 数据集上的 ROC 曲线对比。RPCASSM 在多个评价指标下优于现有方法(来源:RPCASSM, Fig.5a)
IRSTD-1K ROC 曲线
图 6:IRSTD-1K 数据集上的 ROC 曲线对比。RPCASSM 在该大规模数据集上同样取得了领先的检测效果(来源:RPCASSM, Fig.5b)

消融实验

配置DifBlockTSSMBSSMmIoUPdFa(10⁻⁶)F-measure
Baseline---91.6097.4118.4995.61
+DifBlock+--91.7597.7816.1095.70
+DifBlock+TSSM++-93.6797.655.0596.73
Full (Ours)+++95.9898.622.2297.95

表 4:逐步添加组件的消融实验结果(NUDT-SIRST)。

  • DifBlock:单独加入后,mIoU 从 91.60 提升至 91.75(+0.15%),Fa 从 18.49 降至 16.10(-2.39)。贡献幅度最小,但方向一致且稳定
  • TSSM:在 DifBlock 基础上加入后,mIoU 从 91.75 跃升至 93.67(+1.92%),Fa 从 16.10 骤降至 5.05(-11.05,降幅 68.6%)。这是对 Fa 抑制效果最显著的一步
  • BSSM:最后加入后,mIoU 从 93.67 跃升至 95.98(+2.31%),Pd 从 97.65 提升至 98.62(+0.97%),Fa 从 5.05 降至 2.22(-2.83,降幅 56%)。这是对整体性能贡献最大的组件
总结:三个组件的贡献排序为 BSSM > TSSM > DifBlock,但三者缺一不可。三者的协同作用使 RPCASSM 从 baseline 的 91.60% mIoU / 18.49 Fa 提升至 95.98% mIoU / 2.22 Fa,总提升幅度为 mIoU +4.38%、Fa -16.27(降幅 88%)。

超参数敏感性

kmIoUPdFa(10⁻⁶)F-measure
194.0997.675.4996.96
295.0198.204.6297.44
395.9898.622.2297.95
495.4298.522.9497.66
595.8598.612.7197.80

表 5:Stage 数 k 的影响。k=3 为性能峰值。

αmIoUPdFa(10⁻⁶)F-measure
0.0195.9898.622.2297.95
0.0395.3398.336.6697.61
0.0595.1898.103.7897.53
0.0795.4598.413.1197.67
0.1095.0298.212.8897.45

表 6:损失权重 α 的影响。α=0.01 为最优值。

$T_{init}$mIoUPdFa(10⁻⁶)F-measure
0.195.7098.102.1397.80
0.395.4698.543.3697.68
0.595.3998.464.6497.64
0.795.9898.622.2297.95
1.095.5098.312.5597.70

表 7:阈值初始化 $T_{init}$ 的影响。$T_{init}=0.7$ 为综合最优。

AUC 结果

DatasetIndexRPCASSM最优竞争者排名
NUDT-SIRSTAUC_FPR=0.50.9340LSDSSMs: 0.9196第 1
NUDT-SIRSTAUC_FPR=1.00.9529LSDSSMs: 0.9432第 1
IRSTD-1KAUC_FPR=0.50.5371MSHNet: 0.5683第 2
IRSTD-1KAUC_FPR=1.00.6916MSHNet: 0.6872第 1

表 8:不同假警率区间下的 ROC 曲线下面积(AUC)。

解读:在 NUDT-SIRST 上,RPCASSM 的两项 AUC 指标均为最优。在 IRSTD-1K 上,RPCASSM 在 AUC_FPR=1.0 上排名第一,但在 AUC_FPR=0.5 上排名第二(0.5371 vs MSHNet 的 0.5683),这是 RPCASSM 唯一明显落后于某个对比方法的指标。
可视化检测结果对比
图 7:可视化检测结果对比。展示了 RPCASSM 与其他代表性方法在多组红外场景下的检测输出,RPCASSM 能更准确地定位小目标并有效抑制背景杂波(来源:RPCASSM, Fig.6)

失败案例与局限

  1. BSSM 移除后 Fa 恶化 127%:去掉 BSSM 后 Fa 从 2.22 上升至 5.05(增幅 127%),mIoU 下降 2.31 个百分点。这说明 RPCASSM 的背景抑制能力高度依赖 BSSM 模块
  2. IRSTD-1K AUC_FPR=0.5 不如 MSHNet:在极低假警率区间,RPCASSM 的 AUC 为 0.5371,落后于 MSHNet 的 0.5683,差距达 5.5%
  3. 代码未开源:论文摘要中承诺"Our code will be made public at https://github.com/PepperCS/RPCASSM",但截至撰写时该仓库仅有 README 文件,未包含实际代码
  4. 仅在两个数据集上验证:实验仅覆盖 NUDT-SIRST 和 IRSTD-1K 两个基准数据集。缺少对不同传感器类型、不同气候条件、不同时序数据的测试
  5. 推理速度未报告:论文未提供任何推理速度指标(FPS、延迟、吞吐量)
  6. FLOPs 数据缺失:Table 2 的 caption 明确列出"Flops(G)"作为评估指标,但实际表格中未包含该列
Part 7
讨论与启发

论文结论

RPCASSM 的核心贡献在于首次从红外图像的空间域异质性出发,设计了基于 RPCA 范式的双分支状态空间模型。

  • 架构层面:针对主流 VSSM 与 ISTD 任务之间的三重架构失配,RPCASSM 提出了两条互补的解决路径。BSSM/SPCM 通过空间轴投影和双向 SSM 建模背景的全局低秩结构;TSSM/DPCM 通过密度聚类定位候选区域、可变形偏移贴合目标边界、分区差异化处理将 SSM 算力集中到目标区域
  • 性能层面:以仅 0.45M 参数在 NUDT-SIRST 上达到 mIoU 95.98%、Pd 98.62%、Fa 2.22×10⁻⁶,在 IRSTD-1K 上达到 mIoU 68.44%、Pd 92.44%、Fa 22.31×10⁻⁶,四项指标在两个基准上均取得最优
  • 方法论层面:验证了"将物理先验作为网络架构的归纳偏置而非仅作为正则化项"这一设计哲学的有效性

局限性分析

局限 1:代码未开源

为什么会

论文 README 声明"接收后一个月内公开实验代码",但截至 2026-06-18 已超过该时限,仓库仍仅有 README 文件。最可能的原因是工程整理未完成——研究代码通常包含大量硬编码路径、临时调试脚本、未文档化的依赖版本锁定等,清理到可复现状态需要投入数周甚至数月的额外工作量。

需要什么

作者需要投入专门时间进行代码清理、编写安装和使用文档、提供预训练权重和推理脚本、明确标注所有依赖版本。社区也可以主动联系作者询问进展。

局限 2:仅两个数据集验证

为什么会

ISTD 领域的高质量标注数据集极度稀缺。NUDT-SIRST 和 IRSTD-1K 是目前使用最广泛的两个基准,其他数据集要么规模过小、要么标注质量参差不齐、要么获取受限。

需要什么

更全面的评估应覆盖不同传感器类型(制冷型 vs 非制冷型焦平面阵列)、不同气象条件(晴天、薄雾、雨雾、沙尘)、不同背景类型(天空、海面、地面复杂背景、城市环境)以及更大规模的数据集。

局限 3:推理速度未报告

为什么会

论文的评估重心完全放在精度指标上,未涉及任何效率指标。这可能反映了作者的研究定位——本文的目标是探索 ISTD 精度的上限,而非面向实时部署的工程优化。

需要什么

至少应报告单张图片推理延迟(ms)、吞吐量(FPS)、GPU 显存占用峰值。理想情况下还应在嵌入式平台(如 Jetson Orin)上测试部署可行性。

具体可操作的启发

启发 1:RPCA 先验在视觉任务中的普适性
具体场景:任何具有"低秩背景 + 稀疏前景"物理特性的视觉任务。除了 ISTD,还包括医学影像中的病灶检测、遥感图像中的变化检测、视频监控中的前景分割、工业质检中的缺陷检测等。
为什么有效:RPCA 提供了一个强归纳偏置,将问题的解空间从任意矩阵约束到低秩+稀疏的子空间中。这意味着网络不需要从零学习"什么是背景、什么是前景",而是只需要学习"如何更好地执行这个已知结构的分解"。这种先验大幅减少了所需的学习容量,解释了为什么 RPCASSM 仅用 0.45M 参数就能超越 50M 参数的 UIU-Net。 迁移示例:在医学图像肿瘤检测中,可以将 RPCANet/RPCASSM 的深度展开框架直接复用。正常组织在空间上高度相关(低秩),肿瘤区域是孤立的异常信号(稀疏)。BSSM 的全局低秩建模可以帮助抑制正常组织的纹理干扰,TSSM 的聚焦式处理可以精确勾勒肿瘤边界。 启发 2:分区差异化处理的计算效率思想
具体场景:目标区域小但重要的检测/分割任务,包括小目标检测、异常检测、注意力机制设计、以及任何需要在高分辨率下处理但感兴趣区域仅占画面一小部分的任务。
为什么有效:DPCM 的核心思想是"不是所有像素都值得同等对待"。通过低成本的预筛选(密度图聚类 + 自适应阈值)快速定位候选区域,然后对候选区域启用高精度处理(CSM+SSM),对其余区域使用低成本处理(Linear)。这种"先粗筛再精修"的策略将有限的计算资源集中到最有价值的区域,在不增加总计算量的前提下提升了关键区域的建模质量。 启发 3:渐进式深层监督在多阶段架构中的稳定性
具体场景:任何迭代式或多阶段的网络架构,包括级联检测器(Cascade R-CNN)、迭代超分辨率(Iterative Super-Resolution)、多阶段生成模型(Progressive GAN)、深度展开优化网络(ADMM-Net、ISTA-Net)。
为什么有效$\alpha=0.01$ 的极低权重揭示了一个重要设计原则:中间阶段的监督应该是"软引导"而非"硬约束"。过强的中间监督($\alpha \geq 0.03$)会导致 Fa 恶化 200%,因为中间阶段被迫追求与其当前完善程度不匹配的精度,引入了噪声梯度。$\alpha=0.01$ 恰好处于"足以防止梯度消失、又不至于干扰最终优化"的甜蜜点。 启发 4:复现注意事项
  • 学习率调度策略未完整披露:论文仅提及"learning rate decay schedule was implemented",但未说明具体是 step decay、cosine annealing 还是 exponential decay。建议尝试 cosine annealing with warmup
  • $\Delta T$ 的具体值未给出:DPCM 的自适应阈值公式 $T_s = T_{init} - \gamma \cdot \Delta T$ 中,$T_{init}=0.7$ 已知,但 $\Delta T$ 缺失。建议通过消融实验在 {0.05, 0.1, 0.15, 0.2} 范围内搜索
  • KAN 的配置细节不明:BSSM 中使用 KAN 替代 Linear 生成 SSM 参数,但 KAN 的具体配置(网格点数、样条阶数、隐藏层宽度)未披露。建议参考 pykan 库的默认配置
  • SSM 变体选择:论文使用的是 Mamba 的选择性 SSM(S6),建议优先参考 VMamba 的开源实现,因为 RPCASSM 的 TSSM 直接使用了 VMamba 的 CSM 模块
启发 5:在 ISTD 研究图谱中的位置

上游传承

经典 RPCA(IPI Model, Gao 2013)→ RPCANet(RPCA + CNN 深度展开, Wu WACV 2024)→ LSDSSMs(RPCA + 单向 SSM, Lu TGRS 2025)→ RPCASSM(RPCA + 双分支 SSM, 2026)。这条线的演进逻辑是:保持 RPCA 分解范式不变,持续升级子网络的表达能力(CNN → 单向 SSM → 双分支 SSM),同时不断深化 RPCA 与网络架构的集成程度(正则化 → 架构灵感 → 迭代=stage)。

延伸阅读

  1. RPCANet: Deep Unfolding RPCA Based Infrared Small Target Detection (Wu et al., WACV 2024) — RPCA 深度展开范式的开创性工作。如果你想理解 RPCASSM 的"骨架"从何而来,这是必读文献。代码已开源(fengyiwu98/RPCANet),适合动手实践
  2. LSDSSMs: Infrared Small Target Detection Network Based on Low-Rank Sparse Decomposition State Space Models (Lu et al., TGRS 2025) — RPCASSM 同组的前序工作,也是最直接的 baseline。读完你会理解 RPCASSM 为什么要从单向 SSM 升级到双分支设计
  3. VMamba: Visual State Space Model (Liu et al., NeurIPS 2024) — 定义了"Visual SSM"标准范式的工作。RPCASSM 既借用了它的 CSM 模块,又批判了它的整体架构哲学
  4. Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Gu & Dao, COLM 2024) — 整个 SSM 视觉应用浪潮的理论基石。如果你对 SSM 还不熟悉,这是最好的入门文献
  5. DRPCA-Net: Dynamic RPCA with Residual Grouping for Infrared Small Target Detection (Xiong et al., TGRS 2025) — 另一条改进 RPCANet 的技术路线,侧重于动态参数生成而非扫描机制设计。代码已开源(GrokCV/DRPCA-Net)
3D 显著性图对比
图 8:3D 显著性图对比。以三维视角展示各方法对目标的响应强度,RPCASSM 在目标区域产生更尖锐的峰值响应,同时背景区域响应更低(来源:RPCASSM, Fig.7)
阶段热力图
图 9:阶段热力图。展示 RPCASSM 在不同迭代阶段中特征图的演化过程,随着阶段推进,目标信号逐步增强而背景噪声被持续抑制(来源:RPCASSM, Fig.8)