红外图像压缩论文精读（二）：SA-ICM，用 SAM 边缘信息训练给机器看的图像压缩器

2026/06/15 22:53:14·2026/06/17 20:30:00

SA-ICM Image Coding for Machines 边缘图像压缩 Segment Anything NeRV

Series · 边缘图像压缩系列（二）

这篇论文为什么接在“边缘图像压缩调研”后面

上一篇边缘图像压缩调研的结论是：当图像只剩稀疏轮廓时，压缩对象不应再被理解成自然图像纹理，而应被理解成结构、连通性和任务可用性。SA-ICM 正好是这条线在学习式图像压缩中的一个具体例子：它不再问“怎样把图像重建得更像原图”，而是问“机器识别到底需要哪些图像信息”。论文的答案很激进：主要保留物体和背景的边缘结构，主动丢掉大量纹理细节 #Shindo-et-al.-2024。

这篇论文全名是 Image Coding for Machines with Edge Information Learning Using Segment Anything，作者为 Takahiro Shindo、Kein Yamada、Taiju Watanabe 和 Hiroshi Watanabe，来自早稻田大学，发表于 IEEE ICIP 2024，arXiv 版本为 2403.04173v3，官方代码在 github.com/final-0/SA-ICM #Shindo-et-al.-2024。它的贡献不是重新发明一个图像压缩骨干网络，而是把 Segment Anything Model 生成的分割边缘变成训练监督，训练一个 Learned Image Compression 模型只编码/解码边缘信息 #SAM-2023。

一句话概括：SA-ICM = RL-based Image Coding for Machines + SAM 生成的边缘 mask。它的核心变量只换了一个：把 COCO 人工物体区域 mask 换成 SAM segmentation map 经 Canny 得到的 edge mask。

这篇值得细读的原因有两个。第一，它把“边缘图像压缩”从传统二值图、链码、线段编码推进到了 end-to-end learned compression 的语境。第二，它把“机器视觉压缩”的评价目标讲得很清楚：如果解码图像是给 YOLO、Mask-RCNN、Panoptic-DeepLab 或 YOLOv7 用的，那么码率-精度曲线比 PSNR 更重要 #Choi-Bajic-2022。

系列定位

本篇是“边缘图像压缩”系列第二篇。第一篇解决“为什么边缘/轮廓图应作为结构图压缩”的问题；本篇则读一个具体学习式方法：SA-ICM 如何把 SAM 边缘先验变成训练信号。后续如果继续扩展，可以沿着 VCM/FCM、红外目标检测、语义图压缩和结构保持近无损压缩四条线继续写。

Part 1 · 问题背景

ICM 的核心矛盾：人眼想看纹理，机器更需要结构

普通学习式图像压缩通常优化一个 rate-distortion 目标：编码器输出 latent $$y$$ ，概率模型估计码率 $\mathcal{R}(y)$ ，解码器输出 $\hat{x}$ ，训练时最小化码率与像素失真。SA-ICM 论文把这类人类视觉压缩写成 #Shindo-et-al.-2024：

普通 LIC：面向人类视觉的 rate-distortion 目标

\mathcal{L}_{h}=\mathcal{R}(y)+\lambda\cdot\mathrm{mse}(x,\hat{x})

这里 $$y$$ 是编码器输出， $\mathcal{R}(y)$ 是由 CompressAI 计算的 bitrate， $$x$$ 是输入图像， $\hat{x}$ 是解码图像， $\lambda$ 控制码率与失真的权衡 #CompressAI-2020。

但 Image Coding for Machines, ICM 的前提是：机器识别需要的信息量通常少于人类视觉重建需要的信息量 #Choi-Bajic-2022。人眼会在意脸部纹理、衣服褶皱、草地细节、水面波纹；检测器、分割器或跟踪器却可能更关心物体轮廓、边界位置、背景结构和显著几何关系。这个差异使得“低码率下尽量重建整张图”不再是唯一合理目标。

这个问题也嵌在更大的标准化背景里。MPEG 近年推进了 Video Coding for Machines, VCM 与 Feature Coding for Machines, FCM 两条路线：前者仍在像素域压缩视频但针对机器分析任务优化，后者则直接压缩神经网络中间特征，用于 split inference 场景 #MPEG-VCM #FCM-Overview。JPEG 委员会也在推进 JPEG AI，这是首个基于端到端学习的国际图像编码标准，虽然 JPEG AI 主要面向图像压缩本身，但其压缩域表示和 AI 任务友好性也与 ICM 共享问题意识 #JPEG-AI。

早期 ICM 可以粗分为三条路线：ROI-based、Task-loss-based 和 Region Learning-based。ROI-based 方法用 ROI map 指导编码，把更多 bit 分给物体区域；Task-loss 方法直接把识别模型输出放进训练目标；Region Learning 方法则用 mask 加权 MSE，让 codec 在训练中学会哪些区域更重要 #Choi-Bajic-2018 #Object-ICM-2024。SA-ICM 继承的是第三条路线，但它认为原来的物体区域 mask 仍然保留了太多纹理，而且背景结构保留不足。

Overview of LIC, ROI-based ICM, task-loss ICM and region-learning ICM

图 1：论文 Fig. 1 对四种压缩流程的概括。(a) 普通 LIC 优化全图 MSE；(b) ROI-based 方法把 ROI map 作为编码端输入；(c) Task-loss 方法把识别模型输出放进 loss；(d) Region Learning 用 mask 调制 MSE。SA-ICM 属于 (d)，但换掉了 mask 的来源。（来源：Shindo et al., 2024, Fig. 1）

作者与实验室背景

一作 Takahiro Shindo 的研究主线高度集中在 Image Coding for Machines：从 VVC + YOLO 特征、Object Region Learning，到 SA-ICM、Delta-ICM 和后续的 contour feature learning 扩展，形成了一条连续路线 #Shindo-Homepage。通讯作者 Hiroshi Watanabe 是早稻田大学 Advanced Multimedia Systems Lab 教授，长期从事图像/视频编码和多媒体分发研究，曾在 NTT 人机界面实验室从事图像/视频编码研发 #Watanabe-Profile。

路线	核心做法	优点	SA-ICM 看到的问题
ROI-based	编码端输入 ROI map，重点区域分配更多 bit	直观，可兼顾部分人眼质量	编码端要生成 ROI，负担大；背景任务不一定好
Task-loss	用检测/分割模型输出作为 loss	直接优化任务性能	容易绑定特定模型，换任务可能要重训
Region Learning	训练时用 mask 加权 MSE，测试时不需要 mask	推理轻量，不依赖任务模型	COCO 物体区域 mask 类别有限，背景结构保留不足
SA-ICM	SAM 分割图 → Canny 边缘 → 加权 MSE	保留边缘结构、减少纹理、测试零额外输入	依赖 SAM/Canny 生成质量，复现细节披露不足

Part 2 · 方法动机

从 Object-ICM 到 SA-ICM：不是保物体区域，而是保边缘结构

SA-ICM 最直接的前置工作是同一团队的 Image Coding for Machines with Object Region Learning，也可以称为 Object-ICM #Object-ICM-2024。Object-ICM 的想法很朴素：COCO 数据集中有人工标注的物体 mask，那么训练 LIC 时只在物体区域计算重建损失，背景区域可以粗糙一些。它的 Region Learning 损失可写成 #Shindo-et-al.-2024：

Object-ICM / RL-based ICM 损失

\mathcal{L}_{rl}=\mathcal{R}(y)+\lambda\cdot\mathrm{mse}(x\odot m_x,\hat{x}\odot m_x)

其中 $$m_x$$ 是 COCO 的二值物体区域 mask， $\odot$ 是逐元素乘。mask 不进入编码器或解码器，只改变训练损失。

这个想法解决了 ROI-based 方法的一个痛点：测试时不需要额外 ROI map，也不需要编码端运行识别模型。但它也留下了一个新问题：如果只保 COCO 的物体区域，背景会被非常粗糙地重建；这对目标检测可能够用，但对语义分割、全景分割这类依赖背景结构的任务就不够 #Shindo-et-al.-2024。

SA-ICM 的改动非常集中：用 SAM 的自动分割能力生成全图 segmentation map，再用 Canny 从 segmentation map 中提取边缘。这样得到的 mask 不再是“物体内部区域”，而是“显著区域的边界线”。作者设置了三个 SAM 置信度阈值 $\alpha\in\{0.98,0.93,0.48\}$ ， $\alpha$ 越小，SAM 输出的 mask 越多，Canny 检出的边缘也越多 #Shindo-et-al.-2024。

图 2：论文 Fig. 2 展示不同 mask 形态。(a) 原图；(b) COCO handmade mask；(c)-(e) 为 SAM 生成的 mask，经 Canny 得到边缘，分别对应

\alpha=0.98,0.93,0.48

。

\alpha

越低，保留的区域和边缘越多。（来源：Shindo et al., 2024, Fig. 2）

这里的关键不是“用 SAM 做分割”，而是“用 SAM 生成训练监督”。SAM 本身不会部署在压缩器推理链路中；它只在训练前离线生成 mask。换句话说，SA-ICM 把 SAM 从一个 segmentation foundation model 改造成了一个 importance prior generator。这个转译很巧：分割模型负责告诉 codec 哪些空间结构值得保留，codec 在训练后内化这种偏好，测试时仍然只是输入图像、输出压缩表示和重建图像 #SAM-2023 #Shindo-et-al.-2024。

Part 3 · SA-ICM 方法

mask 只参与训练，不参与部署：边缘监督如何塑造 codec

SA-ICM 的训练流水线可以拆成三步。第一步，对训练图像 $$x$$ 运行 SAM，得到 segmentation map；第二步，用 Canny edge detector 从 segmentation map 提取边缘，得到 $\mathrm{sam}_x(\alpha)$ ；第三步，用这个边缘 mask 同时乘到原图和重建图上，只在边缘位置计算 MSE #Shindo-et-al.-2024。

图 3：论文 Fig. 3，SA-ICM 训练方法。SAM + Canny 生成的 mask 只用于训练损失，测试阶段不再需要 mask 输入。（来源：Shindo et al., 2024, Fig. 3）

SA-ICM 的核心损失

\mathcal{L}_p=\mathcal{R}(y)+\lambda\cdot\mathrm{mse}\left(x\odot\mathrm{sam}_x(\alpha),\hat{x}\odot\mathrm{sam}_x(\alpha)\right)

这就是 SA-ICM 的 Eq. (5)。它和 Object-ICM 的 Eq. (3) 在形式上几乎完全相同，唯一替换是 $m_x\to\mathrm{sam}_x(\alpha)$ 。实验中作者固定 $\lambda=0.05$ ，通过改变 $\alpha$ 得到多个码率-精度工作点 #Shindo-et-al.-2024。

这套设计的直觉可以用一句话解释：让梯度只在边缘位置大声说话。如果某个像素不在 $\mathrm{sam}_x(\alpha)$ 中，那么它对 MSE 几乎没有贡献；如果它位于物体边界、背景结构边缘或显著轮廓上，那么重建错误会被保留下来并反向传播。训练久了以后，codec 学到的不是“还原整张图”，而是“优先还原边缘”。

论文 Fig. 4 的视觉结果很好地说明了这种偏好。Object-ICM 仍然会保留物体区域内较多纹理；SA-ICM 则更彻底地去掉纹理，例如大象皮肤褶皱、草地碎屑、水面细浪、羊毛细节都会被磨平，但主体轮廓、前景/背景边界和显著结构仍然存在 #Shindo-et-al.-2024。

Object-ICM and SA-ICM coded images comparison

图 4：论文 Fig. 4。第一行是输入图像，第二行是 Object-ICM，第三行是 SA-ICM。SA-ICM 去除了更多纹理，但保留了目标形状和主要边界；这也是它带来隐私保护的原因之一。（来源：Shindo et al., 2024, Fig. 4）

为什么说这是“边缘图像压缩”

SA-ICM 不直接压缩二值边缘图，而是训练一个图像 codec 只重建边缘信息。从任务目标看，它和传统链码/线段编码有同一个底层逻辑：把边缘结构视为比纹理更重要的信息载体。

Part 4 · SA-NeRV

同一思想迁移到视频：让神经视频表示优先记住边缘

论文的第二个贡献是 SA-NeRV。NeRV 的基本思想是把一段视频嵌入到一个神经网络中：输入帧索引，输出对应视频帧；视频压缩可以转化为模型剪枝、量化和权重编码 #NeRV-2021。普通 NeRV 优化的是 L1 与 SSIM 组合，目标仍然偏向人类视觉重建：

NeRV 原始损失

\mathcal{L}_{n}=\frac{1}{T}\sum_{t=1}^{T}\left[\beta\|x-\hat{x}\|+(1-\beta)(1-\mathrm{ssim}(x,\hat{x}))\right]

其中 $$T$$ 是视频总帧数， $\beta$ 是 L1 与 SSIM 的平衡系数。SA-ICM 论文没有披露 $\beta$ 的具体取值 #Shindo-et-al.-2024。

SA-NeRV 在这个基础上叠加了一项 mask 区域的 L1/SSIM 损失。也就是说，网络仍然要尽量重建整帧，但还会额外被惩罚：如果边缘 mask 区域重建不好，就多扣分 #Shindo-et-al.-2024。

SA-NeRV 损失

\mathcal{L}_{sa\text{-}n}=\mathcal{L}_{n}+\frac{1}{T}\sum_{t=1}^{T}\Big[\beta\|x\odot\mathrm{sam}_x(\alpha)-\hat{x}\odot\mathrm{sam}_x(\alpha)\|+(1-\beta)(1-\mathrm{ssim}(x\odot\mathrm{sam}_x(\alpha),\hat{x}\odot\mathrm{sam}_x(\alpha)))\Big]

结构上，它就是“普通 NeRV 损失 + 边缘区域 NeRV 损失”。这相当于告诉网络：整帧可以粗一点，但物体位置和形状要记牢。

这个迁移说明 SA-ICM 的想法并不局限于某个 LIC backbone。它可以被理解为一种训练监督范式：只要模型有重建损失，就可以把 SAM 边缘 mask 乘进去，让重建目标从人眼纹理偏向机器可用边缘。

Part 5 · 实验设计

实验到底证明了什么：不是 PSNR，而是任务精度

SA-ICM 的实验不以 PSNR 为主，而以机器视觉任务精度作为纵轴。作者先用 COCO-train 生成 SAM mask，设置 $\alpha\in\{0.98,0.93,0.48\}$ ，用 Liu et al. 的 Mixed Transformer-CNN LIC 模型作为 backbone，并固定 $\lambda=0.05$ 训练多个 SA-ICM 工作点 #LIC-TCM-2023 #Shindo-et-al.-2024。

官方仓库给出了推理脚本和预训练权重，README 中提供了 icm_78.pth.tar、icm_93.pth.tar 两档 ICM 权重，以及在压缩图像上训练的 yolov5_78.pt 和 yolov5_93.pt；测试阶段约 11GB 显存 GPU 即可运行，例如 1080 Ti 或 2080 Ti #SA-ICM-Code。这说明 SA-ICM 至少在推理侧是相对轻量的，但训练成本、优化器、学习率、batch size 和 epoch 在论文中没有完整披露。

实验维度	设置
训练 mask 来源	COCO-train 图像经 SAM + Canny 生成
SAM 阈值	$\alpha=0.98,0.93,0.48$
LIC backbone	Liu et al. 2023 Mixed Transformer-CNN / LIC-TCM
码率权衡	$\lambda=0.05$
检测模型	YOLOv5，COCO 与 VisDrone；YOLOv5 使用压缩训练集 fine-tune
实例分割/检测	Mask-RCNN，COCO
实例/全景分割	Panoptic-DeepLab，Cityscapes
视频实验	SFU-HW-Objects-v1 的 C/D 类序列，YOLOv7 评估

这里有一个细节必须注意：YOLOv5 实验中，作者将训练数据也压缩后用于 fine-tune YOLOv5；而 Mask-RCNN 和 Panoptic-DeepLab 部分并没有同样描述 fine-tune 流程 #Shindo-et-al.-2024。所以 Fig. 5 与 Fig. 6-8 在严格意义上不是完全同一种评估协议。写论文或复现时，不能把它们简单混成“所有任务都零适配”。

YOLOv5 object detection compression performance

图 5：论文 Fig. 5。YOLOv5 在 COCO 与 VisDrone 上的检测精度-码率曲线，浅蓝虚线为未压缩图像精度，绿色星形为 SA-ICM 不同

\alpha

工作点。（来源：Shindo et al., 2024, Fig. 5）

Mask-RCNN object detection and instance segmentation compression performance

图 6：论文 Fig. 6。Mask-RCNN 在 COCO 上的检测与实例分割任务表现。SA-ICM 的绿色星形点在多个码率下优于原 RL-based 方法。（来源：Shindo et al., 2024, Fig. 6）

Panoptic-DeepLab 的两张图更能说明 SA-ICM 相对 Object-ICM 的核心价值。原 RL-based 方法只保物体区域，因此背景信息粗糙；而语义分割/全景分割恰恰需要背景结构。SA-ICM 的边缘 mask 会覆盖更多背景结构轮廓，所以在 Cityscapes 的实例分割和全景分割上更稳 #Panoptic-DeepLab-2020 #Shindo-et-al.-2024。

Panoptic-DeepLab instance segmentation compression performance

图 7：论文 Fig. 7。Panoptic-DeepLab 在 Cityscapes 上的实例分割表现。这个实验针对的是 Object-ICM 背景保留不足的问题。（来源：Shindo et al., 2024, Fig. 7）

Panoptic-DeepLab panoptic segmentation compression performance

图 8：论文 Fig. 8。Panoptic-DeepLab 全景分割 PQ 与码率关系。全景分割需要同时理解前景和背景，因此是检验 SA-ICM 是否真正保留背景结构的关键实验。（来源：Shindo et al., 2024, Fig. 8）

Part 6 · 视频结果

SA-NeRV：8 段视频中 7 段检测精度提升

SA-NeRV 实验使用 SFU-HW-Objects-v1 数据集。该数据集包含 18 段带目标检测标注的 raw video sequences，并被用于 MPEG VCM 标准化活动中的 Common Test Condition #SFU-HW-Objects-2021。论文选择 C 类和 D 类序列，共 8 段，使用预训练 YOLOv7 测量 NeRV 与 SA-NeRV 解码视频上的目标检测 mAP #YOLOv7-2023 #Shindo-et-al.-2024。

NeRV and SA-NeRV decoded video comparison

图 9：论文 Fig. 9。上：输入视频帧；中：NeRV 解码帧；下：SA-NeRV 解码帧。作者指出 SA-NeRV 更正确地重建了目标形状。（来源：Shindo et al., 2024, Fig. 9）

Sequence	NeRV mAP %	SA-NeRV mAP %	提升
BQMall	28.03	28.24	+0.21
BasketballDrill	34.26	34.93	+0.67
PartyScene	34.34	34.61	+0.27
RaceHorsesC	80.99	81.77	+0.78
BQSquare	27.84	29.80	+1.96
BasketballPass	23.29	24.88	+1.59
BlowingBubbles	41.83	48.84	+7.01
RaceHorsesD	89.12	88.98	-0.14

Table 1 的结果是 8 段中 7 段 SA-NeRV 优于 NeRV，提升最大的是 BlowingBubbles，mAP 从 41.83 提升到 48.84，增加 7.01；唯一退步的是 RaceHorsesD，从 89.12 降到 88.98，差距只有 0.14 #Shindo-et-al.-2024。论文措辞也比较克制，用的是 “for most sequences” 而不是 “for all sequences”。

Part 7 · 复现与局限

这篇论文可信，但不是一篇复现友好的论文

SA-ICM 的想法干净、图示直观、实验任务覆盖面也不错；但如果从复现和严谨比较角度看，仍有不少缺口。最重要的是，论文 Fig. 5-8 主要对比的是原 RL-based / Object-ICM 路线，并没有把 ROI-based 和 Task-loss-based 方法重新拿来实测。因此，“SA-ICM 最优”的范围更准确地说是：在作者设定的 RL-based 对比框架内，它比 Object-ICM 更好 #Object-ICM-2024 #Shindo-et-al.-2024。

未披露项	为什么重要
SA-NeRV 的 $\alpha$ 取值	视频实验的边缘密度无法精确复现
NeRV 损失中的 $\beta$	L1 与 SSIM 权重会影响边缘/纹理平衡
优化器、学习率、batch size、epoch	深度学习实验基本复现条件缺失
GPU 型号、训练时长、显存	无法估计训练成本；README 只说测试约 11GB 显存足够 #SA-ICM-Code
SAM 模型大小	ViT-B/L/H 的 mask 质量和速度不同
Canny 阈值	边缘 mask 密度直接依赖 Canny 参数
YOLOv5 fine-tune 细节	Fig. 5 的检测结果与 fine-tune 协议强相关

此外，论文将 $\alpha$ 当成码率-精度曲线的扫描变量，但 $\alpha$ 和 $\lambda$ 并不等价。 $\lambda$ 改的是 rate-distortion 权重， $\alpha$ 改的是边缘 mask 内容；一个调优化强度，一个调监督区域。论文在实验中用改变 $\alpha$ 的方式得到多个 compression performance points，但没有给出理论解释或 BD-rate 类型统计 #Shindo-et-al.-2024。

不要过度解读隐私结论

论文摘要说 SA-ICM 会在编码端去除人脸信息，具有隐私保护收益；Fig. 4 也确实显示人脸纹理被抹掉。但论文没有做人脸检测率、身份识别准确率或 privacy attack 的定量实验。因此这只能作为定性附带收益，而不是严格隐私保证。

Part 8 · 总结

SA-ICM 的真正价值：把边缘先验变成压缩监督

SA-ICM 的技术难度不在于网络结构，而在于问题设定。它没有设计新的熵模型，没有提出复杂的 transformer block，也没有让 SAM 进入推理链路。它只是把 SAM 的 segmentation map 取边缘，再把这些边缘作为 MSE 的空间权重。正是这个小改动，把学习式图像压缩的目标从“复原纹理”推向“保留机器任务需要的结构”。

从边缘图像压缩系列的角度看，SA-ICM 是一个很好的现代样本。传统路线会直接压缩二值边缘图，例如 RLE、JBIG2、链码、线段编码；SA-ICM 则训练一个神经 codec，让它输出“接近边缘图的自然图像重建”。两者形式不同，但内核相同：纹理不是第一优先级，结构才是。

可迁移启发：如果手头是红外轮廓图、低纹理监控图或边缘主导的机器视觉输入，可以考虑把 SA-ICM 的思路改造成“任务边缘 mask 监督”：用传统边缘检测、SAM、热目标分割或人工规则生成 mask，只在这些结构区域训练压缩器。

当然，下一步真正有研究价值的问题不是“复现 SA-ICM”，而是问：边缘是否总是足够？不同任务需要哪类边缘？纹理、颜色、热强度和几何结构之间怎样分配码率？如果这些问题能被系统回答，边缘图像压缩就不只是一个小众红外问题，而会成为 Coding for Machines 中一条重要的结构优先路线。

References · 参考来源

论文、代码与前置工作

参考来源

Shindo, T., Yamada, K., Watanabe, T., & Watanabe, H. (2024). Image Coding for Machines with Edge Information Learning Using Segment Anything. IEEE ICIP 2024 / arXiv:2403.04173. arXiv HTML
final-0. SA-ICM official implementation. GitHub
Choi, H., & Bajić, I. V. (2022). Scalable Image Coding for Humans and Machines. IEEE Transactions on Image Processing, 31, 2739–2754. arXiv
Choi, H., & Bajić, I. V. (2018). High Efficiency Compression for Object Detection. ICASSP 2018. arXiv
Shindo, T., Watanabe, T., Yamada, K., & Watanabe, H. (2024). Image Coding for Machines with Object Region Learning. IEEE CCNC / arXiv:2308.13984. arXiv
Kirillov, A. et al. (2023). Segment Anything. ICCV 2023. arXiv
Chen, H. et al. (2021). NeRV: Neural Representations for Videos. NeurIPS 2021. arXiv
Liu, J., Sun, H., & Katto, J. (2023). Learned Image Compression with Mixed Transformer-CNN Architectures. CVPR 2023. arXiv
Bégaint, J., Racapé, F., Feltman, S., & Pushparaja, A. (2020). CompressAI: a PyTorch library and evaluation platform for end-to-end compression research. arXiv
Cheng, B. et al. (2020). Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation. CVPR 2020. arXiv
Choi, H. et al. (2021). A dataset of labelled objects on raw video sequences. Data in Brief, 34:106701. DOI
Wang, C.-Y., Bochkovskiy, A., & Liao, H.-Y. M. (2023). YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. CVPR 2023. arXiv
MPEG. Video Coding for Machines exploration. MPEG Standards
Streaming Learning Center. Real-Time Feature Coding for Machines: Inside the New MPEG Standard. Article
JPEG Committee. JPEG AI. Official page
Takahiro Shindo. Personal homepage and publications. Homepage
Waseda University. Hiroshi Watanabe researcher profile. Profile

上一篇边缘图像压缩调研当前文章SA-ICM 深度解读专题页图像压缩系列总览

SA-ICM：给机器看的边缘压缩

系列定位

普通 LIC：面向人类视觉的 rate-distortion 目标

作者与实验室背景

Object-ICM / RL-based ICM 损失

SA-ICM 的核心损失

NeRV 原始损失

SA-NeRV 损失

参考来源