红外图像压缩论文精读（三）：FreqKD，频率解耦蒸馏揭示红外图像的高低频分歧

2026/06/17 21:00:00

一句话读懂：FreqKD 发现 RGB 与红外图像之间的模态鸿沟并非均匀分布于整个频谱，而是高度集中于高频带（散度比为 2.42×），据此提出频率解耦的非对称蒸馏策略——对低频施加严格 MSE、对高频施加松弛 log-MSE——使红外目标检测 mAP₅₀ 提升 +2.4 至 64.1，同时为红外轮廓压缩提供了"频率分解即码率分配界面"的理论基石。#FreqKD-2026

Chapter 1 · 问题与动机

为什么 RGB→IR 知识蒸馏会失败？

知识蒸馏在可见光领域已经是一项成熟技术：用大模型（教师）的输出指导小模型（学生）训练，使学生以更低计算成本逼近教师性能。当这一范式被迁移到红外目标检测时，一个看似自然的想法是：用大规模 RGB 预训练的视觉基础模型（如 DINOv2）作为教师，将丰富的语义表征能力蒸馏给处理红外图像的学生网络。毕竟，RGB 数据在互联网规模上唾手可得，而配对的热红外标注数据极其稀缺。#AnyThermal-2026

然而，实践反复证明这种直接的跨模态蒸馏效果不佳，甚至有时不如不使用蒸馏的基线。问题的根源在于一个被长期忽视的事实：RGB 与红外图像之间的模态差异并非在所有频率带上均匀分布。传统蒸馏方法隐含地假设教师和学生的特征空间存在全局可对齐的结构，因此使用统一的损失函数（通常是逐层 MSE 或对比损失）对所有特征分量施加同等约束。但如果不同频率带的跨模态一致性存在本质差异，那么这种"一刀切"的对齐策略就会适得其反——它强迫学生网络去模仿教师在那些本质上不可迁移的频率分量上的响应，反而干扰了可迁移分量的学习。

这就是 FreqKD 论文 #FreqKD-2026 提出的频谱散度假说（Spectral Divergence Hypothesis）：RGB 与 IR 的特征差异在高频带显著大于低频带。低频分量对应场景的全局布局、形状结构和温度场的宏观分布，这些语义概念在两种模态之间具有天然的对应关系——一个人无论在 RGB 还是热红外中都占据相似的空间位置和轮廓形状。但高频分量对应纹理细节、表面反射模式和精细边缘，这些信息在两种模态中的物理来源完全不同：RGB 高频来自表面材质的光谱反射特性，而 IR 高频来自温度梯度和热辐射边界。因此，期望学生在高频带上精确复制教师的响应不仅不现实，而且有害。

系列定位

本文是红外图像压缩系列论文精读第三篇。频谱散度假说的验证不仅服务于跨模态蒸馏，更直接支撑了系列（四）中"频域分解作为压缩原语"的核心论点。如果你关注的是压缩系统设计而非蒸馏本身，可以跳至第四章直接查看对编码器的启示。

从压缩的角度审视，这一假说具有更深远的含义。如果高频带确实是跨模态差异的主要载体，那么在红外图像压缩中，高频分量就不应该被视为可以用统一量化策略处理的"细节残留"，而应该获得独立的、针对其统计特性和任务价值量身定制的编码方案。这正是 FreqKD 虽然是一篇检测论文，却对红外轮廓压缩产生深刻影响的根本原因。

Chapter 2 · 核心方法

三步 FreqKD 管线：归一化、分解、非对称损失

FreqKD 的方法论设计紧密围绕频谱散度假说展开。整个框架分为三个步骤：首先消除模态间的幅值差异以确保频域分析的可比性，然后在频域中将特征分离为低频和高频两个子带，最后对两个子带施加不对称的蒸馏损失。此外，训练采用两阶段流水线以兼顾表征学习和下游任务适配。以下逐一拆解。

Step 1：Centred L2 Normalization — 消除幅值偏差

在进行任何频域比较之前，必须先解决一个前置问题：RGB 和 IR 特征在激活强度上可能存在系统性差异。DINOv2 在 RGB 上预训练得到的特征幅值分布，与学生网络在 IR 上产生的特征幅值分布可能处于完全不同的数值范围。如果直接做 FFT 并比较频谱，观察到的差异可能主要来自幅值缩放而非真正的空间模式分歧。

FreqKD 的解决方案是对每个通道独立执行去均值 L2 归一化：

\tilde{F}^{(l)}_{:,c} = \frac{F^{(l)}_{:,c} - \mu_c^{(l)}}{\|F^{(l)}_{:,c} - \mu_c^{(l)}\|_2 + \epsilon}

其中 $F^{(l)}_{:,c}$ 是第 $$l$$ 层第 $$c$$ 个通道的展平特征向量， $\mu_c^{(l)}$ 是该通道的均值， $\epsilon$ 是防止除零的小常数。这一步做了两件事：减去均值消除了 DC 分量（即全局激活水平差异），L2 归一化将所有通道映射到单位超球面上，确保后续的频域距离仅反映空间模式的相似性而非激活强度的差异。

这个预处理步骤看似简单，却是后续所有频域分析的基石。没有它，频谱散度的测量就会被幅值差异所污染，导致错误的频段划分和非最优的损失权重选择。

Step 2：Radial FFT Split — 径向频谱切分

归一化之后，FreqKD 对每个通道的二维特征图执行 FFT 变换，将空域特征转换为频域表示。具体而言，先做标准 2D FFT，再用 fftshift 将零频分量移至频谱中心，然后定义归一化径向坐标：

\rho(u,v) = \frac{\sqrt{(u/u_{\max})^2 + (v/v_{\max})^2}}{\sqrt{2}}, \quad M(u,v) = \mathbb{1}[\rho(u,v) \leq r_c]

其中 $u_{\max}=H/2$ 、 $v_{\max}=W/2$ 为 Nyquist 频率，除以 $\sqrt{2}$ 使得归一化半径 $\rho$ 的范围落在 $$[0, 1]$$ 内。二值掩模 $$M(u,v)$$ 以截止半径 $$r_c = 0.50$$ 为界，将频谱切分为低通带和高通带：

\hat{F}_{\text{low}} = M \odot \hat{F}, \quad \hat{F}_{\text{high}} = (1-M) \odot \hat{F}

再经逆 FFT 即可恢复空域的带限特征表示。

为什么选择 $$r_c = 0.50$$ ？

这不是一个凭经验调节的超参数，而是直接从实测频谱散度曲线中读取的拐点位置。作者在 500 组配对 RGB-IR 样本上绘制了各层的散度随径向频率变化的曲线，发现 $r \approx 0.50$ 处恰好是低频平坦区向高频急升区的转折点。这意味着截止半径是由数据本身的统计特性决定的，而非人为设定的。对于不同的红外数据集或传感器配置，这一拐点位置可能有所偏移，但确定拐点的方法论——基于实测散度分析而非先验假设——具有普适性。

径向切分的选择也值得讨论。相比矩形切分或方向选择性切分，径向切分对各向同性的频率结构最为自然。红外图像的温度场通常呈现近似各向同性的平滑特性，而轮廓边缘虽然在空域中具有方向性，但在频域中的能量分布仍然大致呈环形。因此径向掩模是一个合理且计算高效的选择。

Step 3：Asymmetric Band-Specific Losses — 非对称蒸馏的核心

这是 FreqKD 最精妙的设计，也是整篇论文的灵魂所在。基于频谱散度假说，作者对两个频带施加截然不同的损失函数：

低频带：严格 MSE。低频结构（全局形状、空间布局、温度场基底）在 RGB 和 IR 之间高度共享，因此应当要求学生精确匹配教师的低频响应：

\mathcal{L}_{\text{low}}^{(l)} = \|F_{S,\text{low}}^{(l)} - \text{sg}(F_{T,\text{low}}^{(l)})\|_2^2

其中 $\text{sg}(\cdot)$ 表示 stop-gradient，即教师特征不参与梯度回传。

高频带：松弛 log-MSE。高频纹理在模态间差异巨大，强迫精确匹配会产生误导性的梯度信号。因此采用对数变换降低高频损失的敏感度，允许学生保留自身的高频模式同时仍受教师的弱引导：

\mathcal{L}_{\text{high}}^{(l)} = \log\!\left(1 + \|F_{S,\text{high}}^{(l)} - \text{sg}(F_{T,\text{high}}^{(l)})\|_2^2\right)

log 函数的性质确保了当高频差异较大时，损失增长远慢于线性 MSE，从而避免高频噪声主导训练梯度。当差异较小时，log 近似线性，仍能提供有效的学习信号。

总损失为选定层集合 $\mathcal{L}$ 上各层损失之和，高频项乘以权重系数 $\eta = 0.1$ ：

\mathcal{L}_{\text{FreqKD}} = \sum_{l \in \mathcal{L}} \left(\mathcal{L}_{\text{low}}^{(l)} + \eta \cdot \mathcal{L}_{\text{high}}^{(l)}\right)

$\eta = 0.1$ 的选择意味着高频蒸馏信号的权重仅为低频的十分之一。这一数量级的差距反映了作者对频谱散度假说的坚定信念：高频带的跨模态迁移应当是极其保守的，仅提供微弱的方向性引导而非严格的匹配约束。

非对称设计的直觉理解

可以将 FreqKD 的损失设计类比为一种"选择性倾听"策略。学生网络在学习红外表征时，对于低频信息应当认真听取教师的每一句话（严格 MSE），因为教师在这些维度上的经验确实适用于红外；但对于高频信息，学生只需偶尔参考教师的大致方向（log-MSE + 0.1× 权重），更多依赖自身的红外感知来构建高频表征。这就像一位从油画转向水墨画的画家：构图和布局的经验可以直接迁移，但笔触和墨色必须从头摸索。

两阶段训练：LoRA 适配器 → 合并微调

FreqKD 的训练采用精心设计的两阶段流水线，将表征学习与下游任务适配解耦：

Stage 1：LoRA 表征学习。冻结骨干网络的全部密集权重，仅在选定的 Transformer 层上插入 LoRA 适配器（rank = 64）。LoRA 的低秩分解形式

W_{\text{adapted}} = W_{\text{base}} + BA

（其中

B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times d}, r=64

）确保了极少的可训练参数量，同时保留了预训练权重的全部知识。此阶段的优化目标纯粹是 FreqKD 蒸馏损失，不涉及任何下游任务标签。 Stage 2：合并与端到端微调。将训练好的 LoRA 权重合并回密集权重：

W_{\text{merged}} = W_{\text{base}} + \alpha \cdot BA

，其中缩放因子

\alpha = 0.5

。合并后的骨干网络初始化 DINO-DETR 检测头，在红外目标检测数据集上进行端到端微调。

这一设计有两个重要优势。第一，Stage 1 的性能增益可以被明确归因于表征学习的改进，而非检测头的调优。第二，同一个 Stage 1 检查点可以被复用于不同的下游任务和数据集，验证了频率解耦蒸馏学到的表征具有跨域泛化能力。LoRA rank 64 的选择在参数效率和表达力之间取得了平衡——过低的 rank 无法捕获足够的频域适配信息，过高的 rank 则增加了过拟合风险且削弱了预训练知识的保留。

Chapter 3 · 实验与结果

2.42× 散度比、64.1 mAP₅₀ 与选择性对齐证据

FreqKD 的实验设计围绕三个核心问题展开：频谱散度假说是否成立？非对称蒸馏是否有效？学到的表征是否具有泛化能力？以下依次呈现关键结果。

频谱散度定量验证

作者在 500 组配对的 RGB-IR 样本上，测量了预训练 DINOv2 ViT-Large 五个匹配层（Block 7/15/19/21/23）的频谱散度。对于每一层，分别计算低频带 ( $r < 0.50\)) 和高频带 (\(r > 0.50$ ) 内教师与学生归一化特征之间的 L2 距离均值，记为 $D_{\text{low}}$ 和 $D_{\text{high}}$ ：

Transformer Block	$D_{\text{low}}$	$D_{\text{high}}$	High/Low Ratio
Block 7	0.398	0.884	2.22×
Block 15	0.339	0.894	2.64×
Block 19	0.362	0.909	2.51×
Block 21	0.373	0.917	2.46×
Block 23	0.394	0.921	2.34×
Mean	0.373	0.905	2.42×

这张表揭示了三个重要规律。第一，所有五层的高频散度都一致高于低频散度，均值比率达到 2.42×，没有任何例外。这排除了"某些层可能高频更一致"的可能性，证实了频谱散度是 DINOv2 架构中的系统性现象。第二，散度比在各层之间相对稳定（2.22× ~ 2.64×），说明这一现象不是特定深度的偶然产物，而是贯穿整个网络的固有特性。第三，绝对散度值随深度略有增加（Block 7 的 $D_{\text{high}}=0.884$ → Block 23 的 $D_{\text{high}}=0.921$ ），暗示深层特征的模态特异性更强，进一步支持了在多层上实施频率解耦的必要性。

目标检测主实验

在 FLIR ADAS 红外目标检测基准上，FreqKD 取得了 64.1 mAP₅₀，相比无蒸馏基线提升 +2.4 mAP。这一增益看似不大，但需要注意几个背景：第一，FLIR ADAS 是一个成熟的基准，近年来的增量进步通常在 1-2 mAP 范围内；第二，FreqKD 的增益完全来自表征学习的改进，不涉及检测头架构的任何修改；第三，这一增益是在不增加推理成本的前提下获得的——LoRA 合并后，学生网络的参数量和计算量与基线完全相同。

CKA 分析：选择性对齐的直接证据

Centered Kernel Alignment (CKA) 度量了两个特征表示之间的相似性。FreqKD 的 CKA 分析提供了"选择性对齐"假说最直接的定量证据：

频段	蒸馏前 CKA	FreqKD 后 CKA	变化方向
低频带	0.82	0.91	↑ +0.09
高频带	0.13	0.02	↓ −0.11
整体	0.65	0.30	↓ −0.35

这组数据的解读需要仔细品味。FreqKD 之后，低频相似度从 0.82 升至 0.91，说明蒸馏成功地将教师的低频结构知识迁移给了学生。与此同时，高频相似度从 0.13 降至 0.02，几乎趋近于零——这意味着学生不再试图模仿教师的高频响应，而是发展出了自己独特的高频表征。整体 CKA 从 0.65 大幅降至 0.30，这在传统蒸馏视角下似乎是"退步"（学生和教师变得更不像了），但实际上恰恰是性能提升的原因。更好的红外性能来自于更精准的选择性迁移，而非更全面地模仿 RGB 教师。

这一发现对整个跨模态蒸馏领域都有启示意义：它挑战了"CKA 越高越好"的隐含假设，表明在模态差异不均匀的场景中，有选择性地降低某些维度的对齐度反而是有益的。

跨数据集、跨任务、跨架构泛化

FreqKD Stage 1 学到的表征展现出令人印象深刻的泛化能力：

泛化维度	测试设置	增益	说明
跨数据集	FLIR ADAS（训练域外）	+2.1 mAP₅₀	仅在 LLVIP 上蒸馏，直接在 FLIR 上评测
跨任务	MFNet 语义分割	+1.85 mIoU	检测蒸馏的表征用于分割任务
跨架构	ViT-L → ResNet-50	+1.0 mAP₅₀	ViT 教师蒸馏给 CNN 学生

跨架构泛化尤其值得关注。ViT 和 CNN 的特征空间结构截然不同（全局注意力 vs 局部卷积），但 FreqKD 的频率解耦框架仍然有效。这暗示着频谱散度不是特定架构的伪影，而是 RGB 与 IR 模态差异的内在属性——无论使用何种骨干网络，高频带的跨模态不一致性都是客观存在的。

消融实验：对称 MSE 为何有害

消融实验提供了非对称设计必要性的决定性证据。当对高频带也使用严格 MSE（即 $\mathcal{L}_{\text{high}} = \|F_{S,\text{high}} - \text{sg}(F_{T,\text{high}})\|_2^2$ ，去掉 log 变换且 $\eta=1.0$ ）时，性能从 64.1 mAP₅₀ 骤降至 58.4 mAP₅₀，下降幅度达 −5.7 mAP。即使保持 $\eta=0.1$ 但将 log-MSE 替换为标准 MSE，性能也下降了 −3.3 mAP（从 64.1 跌至 60.8）。

这两个消融结果共同证明了两个独立但互补的论点：第一，高频带的蒸馏权重必须足够小（ $\eta=0.1$ vs $\eta=1.0$ 的差异）；第二，即便权重很小，损失函数的形态也很重要（log-MSE vs MSE 的差异）。换言之，非对称设计不仅需要"少听"高频信号，还需要以"宽容的方式"去听。

关键洞察：强迫学生网络复制教师的高频纹理在跨模态场景中是有害的。这不是因为高频信息不重要——恰恰相反，高频承载了关键的轮廓和边缘信息——而是因为 RGB 高频和 IR 高频的物理来源根本不同，精确匹配会将错误的归纳偏置注入学生网络。

Chapter 4 · 压缩启示

从蒸馏损失到码率分配：三个设计原则

FreqKD 虽然是一篇目标检测论文，但其核心发现对红外轮廓压缩具有直接且深远的影响。我们在系列（四）中已经将频域分解定位为红外轮廓压缩的核心原语之一，本节则从 FreqKD 的具体实验结果出发，提炼出三条可操作的压缩设计原则。

原则一： $$r_c = 0.50$$ 作为压缩分层边界

FreqKD 选择的截止半径 $$r_c = 0.50$$ 在压缩语境下获得了新的诠释：它定义了"基础层"与"增强层"的频率边界。

在经典的可伸缩编码（Scalable Coding）框架中，码流被组织为基础层（Base Layer）和一个或多个增强层（Enhancement Layer）。基础层以较低码率提供基本质量保障，增强层在此基础上逐步提升保真度。FreqKD 的频谱散度分析为这种分层策略提供了数据驱动的划分依据：

基础层（ $$r < 0.50$$ ）：对应低频温度场基底。这部分在跨模态比较中表现出高度一致性（ $D_{\text{low}} = 0.373$ ），意味着其统计规律性强、可预测性高，可以用较少的比特忠实编码。在解码端，即使只收到基础层，也能恢复场景的全局布局和主要热源分布。
增强层（ $$r > 0.50$$ ）：对应高频轮廓和边缘信息。这部分散度高（ $D_{\text{high}} = 0.905$ ）、统计异质性强，需要根据任务重要性进行差异化码率分配。并非所有高频系数都值得同等精度编码——只有那些对下游检测/分割任务有贡献的高频分量才应获得充足比特。

值得注意的是，系列（四）中介绍的 Frequency-Guided Fusion #FreqGuided-2026 采用了空域高斯分解（ $k=7, \sigma=2.0$ ）作为频域 FFT 的计算高效替代方案，其可逆性保证了无损重构的可能性。这两种分解方式在概念上是等价的，都为编码器提供了"在哪里切分频率"的操作界面。

原则二：非对称损失 → 非对称率失真度量

FreqKD 的非对称损失设计可以直接翻译为压缩系统中的非对称率失真（Rate-Distortion）度量。在传统图像压缩中，失真度量通常是全局统一的（如 MSE 或 MS-SSIM），对所有频率分量施加相同的保真度要求。但 FreqKD 的实验结果表明，这种统一度量在红外场景中是次优的。

将 FreqKD 的损失函数重新解读为率失真优化中的失真项：

D_{\text{asym}} = D_{\text{low}} + \eta \cdot D_{\text{high}}^{\text{relaxed}}

其中 $D_{\text{low}}$ 是低频带的严格 MSE 失真， $D_{\text{high}}^{\text{relaxed}}$ 是高频带的松弛失真（log-MSE 或其他容忍型度量）， $\eta = 0.1$ 反映了高频失真在整体优化目标中的低权重。这意味着编码器在码率分配时应当优先保障低频分量的保真度，而对高频分量采取更灵活的策略——允许更大的量化误差，但保留结构性的边界引导信息。

这与 ICM（Image Coding for Machines）范式的核心思想高度一致：码率分配不应由像素保真度驱动，而应由下游任务的信息需求驱动。FreqKD 的贡献在于，它为"哪些频率分量对任务更重要"这个问题提供了定量的、数据驱动的答案。

原则三：高频内部的再分类

FreqKD 将频谱简单地分为"低频"和"高频"两个带，但这并不意味着高频带内部是同质的。系列（四）中讨论的 DHiF（Dynamic High-Frequency Convolution）#DHiF-2026 提供了高频内部再分类的直接证据：在红外小目标检测中，高频分量至少包含三类语义截然不同的成分——目标信号、背景杂波和结构边缘，它们需要不同的滤波器响应才能有效区分。

将这一洞察与 FreqKD 结合，可以得到一个更精细的压缩设计蓝图：

低频带（ $$r < 0.50$$ ）：统一编码，追求高保真。统计规律性强，适合传统的熵编码优化。
高频-轮廓子带：对应目标边界和热异常边缘。这是红外轮廓压缩的核心对象，应获得最高优先级码率分配。
高频-杂波子带：对应传感器噪声和非语义纹理波动。可以激进量化甚至丢弃，因为其不包含对下游任务有用的信息。
高频-结构子带：对应场景中的几何线条和建筑边缘。介于轮廓和杂波之间，根据具体任务需求动态调整码率。

FSGNet #FSGNet-2026 的可学习频域滤波器和 RPCASSM #RPCASSM-2026 的稀疏-低秩分解都为这种高频内部再分类提供了技术路径。前者通过可学习的卷积核在频域中自动发现目标与杂波的频谱分界面，后者通过迭代交替优化将前景（轮廓/目标）从背景（杂波/辐射场）中分离出来。

三条原则的统一视角

上述三条原则可以统一为一个核心命题：频率分解不仅是分析工具，更是码率分配的操作界面。FreqKD 的 $$r_c=0.50$$ 定义了操作界面的刻度线，非对称损失定义了刻度的权重，高频再分类则细化了刻度内部的分辨率。三者共同构成了一个完整的、数据驱动的红外轮廓压缩码率分配框架。

Chapter 5 · 小结与系列定位

FreqKD 的关键收获与系列坐标

回顾全文，FreqKD 这篇论文的核心贡献可以从三个层面总结：

实证层面：首次以定量实验（500 组配对样本、5 个 Transformer 层、2.42× 均值散度比）验证了 RGB 与 IR 之间的模态鸿沟在频谱上是非均匀分布的。这一发现终结了"跨模态差异是全局均匀"的隐含假设，为后续所有涉及 RGB-IR 对齐的工作提供了新的分析框架。 方法层面：提出了频率解耦知识蒸馏的完整管线——Centred L2 Normalization → Radial FFT Split → Asymmetric Band-Specific Losses，并通过消融实验（对称 MSE −3.3 mAP）证明了非对称设计的必要性。CKA 分析（低频 ↑0.09、高频 ↓0.11、整体 ↓0.35）提供了"选择性对齐优于全面模仿"的直接证据。两阶段 LoRA 训练流水线确保了表征学习的可迁移性（跨数据集 +2.1、跨任务 +1.85 mIoU、跨架构 +1.0 mAP₅₀）。 理论层面：虽然论文本身聚焦于目标检测，但其发现的频谱散度规律和非对称处理原则对红外图像压缩具有深远的理论启示。

\(r_c=0.50\)

定义了压缩分层的频率边界，非对称损失对应非对称率失真度量，高频内部的语义异质性则指向了更精细的子带编码策略。这些启示已在系列（四）中被整合为"频域分解作为压缩原语"的统一框架。

系列导航

本文是红外图像压缩系列论文精读第三篇。建议阅读顺序：

• 若关注频域方法和跨模态迁移：本文 → 精读（四）AnyThermal → 系列（四）CV 前沿

• 若关注 ICM 和任务驱动压缩：精读（二）SA-ICM → 精读（五）CI-ICM → 本文

• 若关注传统编码改进：精读（一）Huf-RLC → 系列（一）成像原理

下一篇精读将深入解读 AnyThermal，探讨如何通过跨模态 CLS-token 对比蒸馏构建通用的热红外特征骨干，与 FreqKD 形成"频率解耦 vs 全局对齐"的方法论对照。

FreqKD 在系列中的独特位置在于：它是唯一一篇从频域角度切入 RGB-IR 差异的工作，也是唯一一篇将蒸馏损失的不对称性与频谱散度的不对称性显式关联的工作。如果说 Huf-RLC 代表了传统编码在红外领域的精细化改进，SA-ICM 代表了 ICM 范式下边缘先验的引入，那么 FreqKD 则代表了一个更基础的认知转变——理解红外图像的压缩需求，首先需要理解红外图像与可见光图像在频率域中的根本分歧。这一认知转变将贯穿后续的 AnyThermal 和 CI-ICM 精读，并最终在系列正文的综合讨论中汇聚为红外轮廓压缩的完整理论框架。

References · 参考文献

引用来源

FreqKD: Frequency-Decoupled Cross-Modal Knowledge Distillation for Infrared Object Detection. arXiv:2606.11572, 2026. arXiv
AnyThermal: Cross-Modal Distillation for Universal Thermal Infrared Representation. arXiv, 2026.
Frequency-Guided Fusion For RGB-Thermal Semantic Segmentation. arXiv:2605.26273, CVPR 2026. arXiv
Dynamic High-frequency Convolution for Infrared Small Target Detection. arXiv:2602.02969, 2026. arXiv
FSGNet: A Frequency-Aware and Semantic Guidance Network for Infrared Small Target Detection. arXiv:2603.25389, 2026. arXiv
RPCASSM: Robust PCA State Space Model For Infrared Small Target Detection. arXiv:2606.01689, 2026. arXiv
Oquab, Maxime et al. DINOv2: Learning Robust Visual Features without Supervision. TMLR 2024. arXiv
Hu, Edward J. et al. LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022. arXiv
Kornblith, Simon et al. Similarity of Neural Network Representations Revisited. ICML 2019. arXiv

FreqKD 论文精读

Step 1：Centred L2 Normalization — 消除幅值偏差

Step 2：Radial FFT Split — 径向频谱切分

为什么选择 $\(r_c = 0.50\)$ ？

Step 3：Asymmetric Band-Specific Losses — 非对称蒸馏的核心

两阶段训练：LoRA 适配器 → 合并微调

频谱散度定量验证

目标检测主实验

CKA 分析：选择性对齐的直接证据

跨数据集、跨任务、跨架构泛化

消融实验：对称 MSE 为何有害

原则一： $\(r_c = 0.50\)$ 作为压缩分层边界

原则二：非对称损失 → 非对称率失真度量

原则三：高频内部的再分类

FreqKD 论文精读

Step 1：Centred L2 Normalization — 消除幅值偏差

Step 2：Radial FFT Split — 径向频谱切分

为什么选择 \(r_c = 0.50\)？

Step 3：Asymmetric Band-Specific Losses — 非对称蒸馏的核心

两阶段训练：LoRA 适配器 → 合并微调

频谱散度定量验证

目标检测主实验

CKA 分析：选择性对齐的直接证据

跨数据集、跨任务、跨架构泛化

消融实验：对称 MSE 为何有害

原则一：\(r_c = 0.50\) 作为压缩分层边界

原则二：非对称损失 → 非对称率失真度量

原则三：高频内部的再分类

为什么选择 $\(r_c = 0.50\)$ ？

原则一： $\(r_c = 0.50\)$ 作为压缩分层边界