ESC
输入关键词搜索文章
目录

SA-ICM:给机器看的边缘压缩

ICIP 2024 · Image Coding for Machines · Segment Anything
把 SAM 从分割工具改造成压缩监督信号:不重建纹理,只教 codec 留下机器需要的边缘结构
ICIP2024
3SAM α 工作点
7/8SA-NeRV 胜出序列
+7.01最大 mAP 提升
Series · 边缘图像压缩系列(二)
这篇论文为什么接在“边缘图像压缩调研”后面

上一篇 边缘图像压缩调研 的结论是:当图像只剩稀疏轮廓时,压缩对象不应再被理解成自然图像纹理,而应被理解成结构、连通性和任务可用性。SA-ICM 正好是这条线在学习式图像压缩中的一个具体例子:它不再问“怎样把图像重建得更像原图”,而是问“机器识别到底需要哪些图像信息”。论文的答案很激进:主要保留物体和背景的边缘结构,主动丢掉大量纹理细节 #Shindo-et-al.-2024

这篇论文全名是 Image Coding for Machines with Edge Information Learning Using Segment Anything,作者为 Takahiro Shindo、Kein Yamada、Taiju Watanabe 和 Hiroshi Watanabe,来自早稻田大学,发表于 IEEE ICIP 2024,arXiv 版本为 2403.04173v3,官方代码在 github.com/final-0/SA-ICM #Shindo-et-al.-2024。它的贡献不是重新发明一个图像压缩骨干网络,而是把 Segment Anything Model 生成的分割边缘变成训练监督,训练一个 Learned Image Compression 模型只编码/解码边缘信息 #SAM-2023

一句话概括:SA-ICM = RL-based Image Coding for Machines + SAM 生成的边缘 mask。它的核心变量只换了一个:把 COCO 人工物体区域 mask 换成 SAM segmentation map 经 Canny 得到的 edge mask。

这篇值得细读的原因有两个。第一,它把“边缘图像压缩”从传统二值图、链码、线段编码推进到了 end-to-end learned compression 的语境。第二,它把“机器视觉压缩”的评价目标讲得很清楚:如果解码图像是给 YOLO、Mask-RCNN、Panoptic-DeepLab 或 YOLOv7 用的,那么码率-精度曲线比 PSNR 更重要 #Choi-Bajic-2022

系列定位

本篇是“边缘图像压缩”系列第二篇。第一篇解决“为什么边缘/轮廓图应作为结构图压缩”的问题;本篇则读一个具体学习式方法:SA-ICM 如何把 SAM 边缘先验变成训练信号。后续如果继续扩展,可以沿着 VCM/FCM、红外目标检测、语义图压缩和结构保持近无损压缩四条线继续写。

Part 1 · 问题背景
ICM 的核心矛盾:人眼想看纹理,机器更需要结构

普通学习式图像压缩通常优化一个 rate-distortion 目标:编码器输出 latent \(y\),概率模型估计码率 \(\mathcal{R}(y)\),解码器输出 \(\hat{x}\),训练时最小化码率与像素失真。SA-ICM 论文把这类人类视觉压缩写成 #Shindo-et-al.-2024

普通 LIC:面向人类视觉的 rate-distortion 目标

$$\mathcal{L}_{h}=\mathcal{R}(y)+\lambda\cdot\mathrm{mse}(x,\hat{x})$$

这里 \(y\) 是编码器输出,\(\mathcal{R}(y)\) 是由 CompressAI 计算的 bitrate,\(x\) 是输入图像,\(\hat{x}\) 是解码图像,\(\lambda\) 控制码率与失真的权衡 #CompressAI-2020

但 Image Coding for Machines, ICM 的前提是:机器识别需要的信息量通常少于人类视觉重建需要的信息量 #Choi-Bajic-2022。人眼会在意脸部纹理、衣服褶皱、草地细节、水面波纹;检测器、分割器或跟踪器却可能更关心物体轮廓、边界位置、背景结构和显著几何关系。这个差异使得“低码率下尽量重建整张图”不再是唯一合理目标。

这个问题也嵌在更大的标准化背景里。MPEG 近年推进了 Video Coding for Machines, VCM 与 Feature Coding for Machines, FCM 两条路线:前者仍在像素域压缩视频但针对机器分析任务优化,后者则直接压缩神经网络中间特征,用于 split inference 场景 #MPEG-VCM #FCM-Overview。JPEG 委员会也在推进 JPEG AI,这是首个基于端到端学习的国际图像编码标准,虽然 JPEG AI 主要面向图像压缩本身,但其压缩域表示和 AI 任务友好性也与 ICM 共享问题意识 #JPEG-AI

早期 ICM 可以粗分为三条路线:ROI-based、Task-loss-based 和 Region Learning-based。ROI-based 方法用 ROI map 指导编码,把更多 bit 分给物体区域;Task-loss 方法直接把识别模型输出放进训练目标;Region Learning 方法则用 mask 加权 MSE,让 codec 在训练中学会哪些区域更重要 #Choi-Bajic-2018 #Object-ICM-2024。SA-ICM 继承的是第三条路线,但它认为原来的物体区域 mask 仍然保留了太多纹理,而且背景结构保留不足。

Overview of LIC, ROI-based ICM, task-loss ICM and region-learning ICM
图 1:论文 Fig. 1 对四种压缩流程的概括。(a) 普通 LIC 优化全图 MSE;(b) ROI-based 方法把 ROI map 作为编码端输入;(c) Task-loss 方法把识别模型输出放进 loss;(d) Region Learning 用 mask 调制 MSE。SA-ICM 属于 (d),但换掉了 mask 的来源。(来源:Shindo et al., 2024, Fig. 1)

作者与实验室背景

一作 Takahiro Shindo 的研究主线高度集中在 Image Coding for Machines:从 VVC + YOLO 特征、Object Region Learning,到 SA-ICM、Delta-ICM 和后续的 contour feature learning 扩展,形成了一条连续路线 #Shindo-Homepage。通讯作者 Hiroshi Watanabe 是早稻田大学 Advanced Multimedia Systems Lab 教授,长期从事图像/视频编码和多媒体分发研究,曾在 NTT 人机界面实验室从事图像/视频编码研发 #Watanabe-Profile

路线核心做法优点SA-ICM 看到的问题
ROI-based编码端输入 ROI map,重点区域分配更多 bit直观,可兼顾部分人眼质量编码端要生成 ROI,负担大;背景任务不一定好
Task-loss用检测/分割模型输出作为 loss直接优化任务性能容易绑定特定模型,换任务可能要重训
Region Learning训练时用 mask 加权 MSE,测试时不需要 mask推理轻量,不依赖任务模型COCO 物体区域 mask 类别有限,背景结构保留不足
SA-ICMSAM 分割图 → Canny 边缘 → 加权 MSE保留边缘结构、减少纹理、测试零额外输入依赖 SAM/Canny 生成质量,复现细节披露不足
Part 2 · 方法动机
从 Object-ICM 到 SA-ICM:不是保物体区域,而是保边缘结构

SA-ICM 最直接的前置工作是同一团队的 Image Coding for Machines with Object Region Learning,也可以称为 Object-ICM #Object-ICM-2024。Object-ICM 的想法很朴素:COCO 数据集中有人工标注的物体 mask,那么训练 LIC 时只在物体区域计算重建损失,背景区域可以粗糙一些。它的 Region Learning 损失可写成 #Shindo-et-al.-2024

Object-ICM / RL-based ICM 损失

$$\mathcal{L}_{rl}=\mathcal{R}(y)+\lambda\cdot\mathrm{mse}(x\odot m_x,\hat{x}\odot m_x)$$

其中 \(m_x\) 是 COCO 的二值物体区域 mask,\(\odot\) 是逐元素乘。mask 不进入编码器或解码器,只改变训练损失。

这个想法解决了 ROI-based 方法的一个痛点:测试时不需要额外 ROI map,也不需要编码端运行识别模型。但它也留下了一个新问题:如果只保 COCO 的物体区域,背景会被非常粗糙地重建;这对目标检测可能够用,但对语义分割、全景分割这类依赖背景结构的任务就不够 #Shindo-et-al.-2024

SA-ICM 的改动非常集中:用 SAM 的自动分割能力生成全图 segmentation map,再用 Canny 从 segmentation map 中提取边缘。这样得到的 mask 不再是“物体内部区域”,而是“显著区域的边界线”。作者设置了三个 SAM 置信度阈值 \(\alpha\in\{0.98,0.93,0.48\}\)\(\alpha\) 越小,SAM 输出的 mask 越多,Canny 检出的边缘也越多 #Shindo-et-al.-2024

SAM masks with different alpha values
图 2:论文 Fig. 2 展示不同 mask 形态。(a) 原图;(b) COCO handmade mask;(c)-(e) 为 SAM 生成的 mask,经 Canny 得到边缘,分别对应 \(\alpha=0.98,0.93,0.48\)\(\alpha\) 越低,保留的区域和边缘越多。(来源:Shindo et al., 2024, Fig. 2)

这里的关键不是“用 SAM 做分割”,而是“用 SAM 生成训练监督”。SAM 本身不会部署在压缩器推理链路中;它只在训练前离线生成 mask。换句话说,SA-ICM 把 SAM 从一个 segmentation foundation model 改造成了一个 importance prior generator。这个转译很巧:分割模型负责告诉 codec 哪些空间结构值得保留,codec 在训练后内化这种偏好,测试时仍然只是输入图像、输出压缩表示和重建图像 #SAM-2023 #Shindo-et-al.-2024

Part 3 · SA-ICM 方法
mask 只参与训练,不参与部署:边缘监督如何塑造 codec

SA-ICM 的训练流水线可以拆成三步。第一步,对训练图像 \(x\) 运行 SAM,得到 segmentation map;第二步,用 Canny edge detector 从 segmentation map 提取边缘,得到 \(\mathrm{sam}_x(\alpha)\);第三步,用这个边缘 mask 同时乘到原图和重建图上,只在边缘位置计算 MSE #Shindo-et-al.-2024

SA-ICM training method
图 3:论文 Fig. 3,SA-ICM 训练方法。SAM + Canny 生成的 mask 只用于训练损失,测试阶段不再需要 mask 输入。(来源:Shindo et al., 2024, Fig. 3)

SA-ICM 的核心损失

$$\mathcal{L}_p=\mathcal{R}(y)+\lambda\cdot\mathrm{mse}\left(x\odot\mathrm{sam}_x(\alpha),\hat{x}\odot\mathrm{sam}_x(\alpha)\right)$$

这就是 SA-ICM 的 Eq. (5)。它和 Object-ICM 的 Eq. (3) 在形式上几乎完全相同,唯一替换是 \(m_x\to\mathrm{sam}_x(\alpha)\)。实验中作者固定 \(\lambda=0.05\),通过改变 \(\alpha\) 得到多个码率-精度工作点 #Shindo-et-al.-2024

这套设计的直觉可以用一句话解释:让梯度只在边缘位置大声说话。如果某个像素不在 \(\mathrm{sam}_x(\alpha)\) 中,那么它对 MSE 几乎没有贡献;如果它位于物体边界、背景结构边缘或显著轮廓上,那么重建错误会被保留下来并反向传播。训练久了以后,codec 学到的不是“还原整张图”,而是“优先还原边缘”。

论文 Fig. 4 的视觉结果很好地说明了这种偏好。Object-ICM 仍然会保留物体区域内较多纹理;SA-ICM 则更彻底地去掉纹理,例如大象皮肤褶皱、草地碎屑、水面细浪、羊毛细节都会被磨平,但主体轮廓、前景/背景边界和显著结构仍然存在 #Shindo-et-al.-2024

Object-ICM and SA-ICM coded images comparison
图 4:论文 Fig. 4。第一行是输入图像,第二行是 Object-ICM,第三行是 SA-ICM。SA-ICM 去除了更多纹理,但保留了目标形状和主要边界;这也是它带来隐私保护的原因之一。(来源:Shindo et al., 2024, Fig. 4)
为什么说这是“边缘图像压缩”

SA-ICM 不直接压缩二值边缘图,而是训练一个图像 codec 只重建边缘信息。从任务目标看,它和传统链码/线段编码有同一个底层逻辑:把边缘结构视为比纹理更重要的信息载体。

Part 4 · SA-NeRV
同一思想迁移到视频:让神经视频表示优先记住边缘

论文的第二个贡献是 SA-NeRV。NeRV 的基本思想是把一段视频嵌入到一个神经网络中:输入帧索引,输出对应视频帧;视频压缩可以转化为模型剪枝、量化和权重编码 #NeRV-2021。普通 NeRV 优化的是 L1 与 SSIM 组合,目标仍然偏向人类视觉重建:

NeRV 原始损失

$$\mathcal{L}_{n}=\frac{1}{T}\sum_{t=1}^{T}\left[\beta\|x-\hat{x}\|+(1-\beta)(1-\mathrm{ssim}(x,\hat{x}))\right]$$

其中 \(T\) 是视频总帧数,\(\beta\) 是 L1 与 SSIM 的平衡系数。SA-ICM 论文没有披露 \(\beta\) 的具体取值 #Shindo-et-al.-2024

SA-NeRV 在这个基础上叠加了一项 mask 区域的 L1/SSIM 损失。也就是说,网络仍然要尽量重建整帧,但还会额外被惩罚:如果边缘 mask 区域重建不好,就多扣分 #Shindo-et-al.-2024

SA-NeRV 损失

$$\mathcal{L}_{sa\text{-}n}=\mathcal{L}_{n}+\frac{1}{T}\sum_{t=1}^{T}\Big[\beta\|x\odot\mathrm{sam}_x(\alpha)-\hat{x}\odot\mathrm{sam}_x(\alpha)\|+(1-\beta)(1-\mathrm{ssim}(x\odot\mathrm{sam}_x(\alpha),\hat{x}\odot\mathrm{sam}_x(\alpha)))\Big]$$

结构上,它就是“普通 NeRV 损失 + 边缘区域 NeRV 损失”。这相当于告诉网络:整帧可以粗一点,但物体位置和形状要记牢。

这个迁移说明 SA-ICM 的想法并不局限于某个 LIC backbone。它可以被理解为一种训练监督范式:只要模型有重建损失,就可以把 SAM 边缘 mask 乘进去,让重建目标从人眼纹理偏向机器可用边缘。

Part 5 · 实验设计
实验到底证明了什么:不是 PSNR,而是任务精度

SA-ICM 的实验不以 PSNR 为主,而以机器视觉任务精度作为纵轴。作者先用 COCO-train 生成 SAM mask,设置 \(\alpha\in\{0.98,0.93,0.48\}\),用 Liu et al. 的 Mixed Transformer-CNN LIC 模型作为 backbone,并固定 \(\lambda=0.05\) 训练多个 SA-ICM 工作点 #LIC-TCM-2023 #Shindo-et-al.-2024

官方仓库给出了推理脚本和预训练权重,README 中提供了 icm_78.pth.taricm_93.pth.tar 两档 ICM 权重,以及在压缩图像上训练的 yolov5_78.ptyolov5_93.pt;测试阶段约 11GB 显存 GPU 即可运行,例如 1080 Ti 或 2080 Ti #SA-ICM-Code。这说明 SA-ICM 至少在推理侧是相对轻量的,但训练成本、优化器、学习率、batch size 和 epoch 在论文中没有完整披露。

实验维度设置
训练 mask 来源COCO-train 图像经 SAM + Canny 生成
SAM 阈值\(\alpha=0.98,0.93,0.48\)
LIC backboneLiu et al. 2023 Mixed Transformer-CNN / LIC-TCM
码率权衡\(\lambda=0.05\)
检测模型YOLOv5,COCO 与 VisDrone;YOLOv5 使用压缩训练集 fine-tune
实例分割/检测Mask-RCNN,COCO
实例/全景分割Panoptic-DeepLab,Cityscapes
视频实验SFU-HW-Objects-v1 的 C/D 类序列,YOLOv7 评估

这里有一个细节必须注意:YOLOv5 实验中,作者将训练数据也压缩后用于 fine-tune YOLOv5;而 Mask-RCNN 和 Panoptic-DeepLab 部分并没有同样描述 fine-tune 流程 #Shindo-et-al.-2024。所以 Fig. 5 与 Fig. 6-8 在严格意义上不是完全同一种评估协议。写论文或复现时,不能把它们简单混成“所有任务都零适配”。

YOLOv5 object detection compression performance
图 5:论文 Fig. 5。YOLOv5 在 COCO 与 VisDrone 上的检测精度-码率曲线,浅蓝虚线为未压缩图像精度,绿色星形为 SA-ICM 不同 \(\alpha\) 工作点。(来源:Shindo et al., 2024, Fig. 5)
Mask-RCNN object detection and instance segmentation compression performance
图 6:论文 Fig. 6。Mask-RCNN 在 COCO 上的检测与实例分割任务表现。SA-ICM 的绿色星形点在多个码率下优于原 RL-based 方法。(来源:Shindo et al., 2024, Fig. 6)

Panoptic-DeepLab 的两张图更能说明 SA-ICM 相对 Object-ICM 的核心价值。原 RL-based 方法只保物体区域,因此背景信息粗糙;而语义分割/全景分割恰恰需要背景结构。SA-ICM 的边缘 mask 会覆盖更多背景结构轮廓,所以在 Cityscapes 的实例分割和全景分割上更稳 #Panoptic-DeepLab-2020 #Shindo-et-al.-2024

Panoptic-DeepLab instance segmentation compression performance
图 7:论文 Fig. 7。Panoptic-DeepLab 在 Cityscapes 上的实例分割表现。这个实验针对的是 Object-ICM 背景保留不足的问题。(来源:Shindo et al., 2024, Fig. 7)
Panoptic-DeepLab panoptic segmentation compression performance
图 8:论文 Fig. 8。Panoptic-DeepLab 全景分割 PQ 与码率关系。全景分割需要同时理解前景和背景,因此是检验 SA-ICM 是否真正保留背景结构的关键实验。(来源:Shindo et al., 2024, Fig. 8)
Part 6 · 视频结果
SA-NeRV:8 段视频中 7 段检测精度提升

SA-NeRV 实验使用 SFU-HW-Objects-v1 数据集。该数据集包含 18 段带目标检测标注的 raw video sequences,并被用于 MPEG VCM 标准化活动中的 Common Test Condition #SFU-HW-Objects-2021。论文选择 C 类和 D 类序列,共 8 段,使用预训练 YOLOv7 测量 NeRV 与 SA-NeRV 解码视频上的目标检测 mAP #YOLOv7-2023 #Shindo-et-al.-2024

NeRV and SA-NeRV decoded video comparison
图 9:论文 Fig. 9。上:输入视频帧;中:NeRV 解码帧;下:SA-NeRV 解码帧。作者指出 SA-NeRV 更正确地重建了目标形状。(来源:Shindo et al., 2024, Fig. 9)
SequenceNeRV mAP %SA-NeRV mAP %提升
BQMall28.0328.24+0.21
BasketballDrill34.2634.93+0.67
PartyScene34.3434.61+0.27
RaceHorsesC80.9981.77+0.78
BQSquare27.8429.80+1.96
BasketballPass23.2924.88+1.59
BlowingBubbles41.8348.84+7.01
RaceHorsesD89.1288.98-0.14

Table 1 的结果是 8 段中 7 段 SA-NeRV 优于 NeRV,提升最大的是 BlowingBubbles,mAP 从 41.83 提升到 48.84,增加 7.01;唯一退步的是 RaceHorsesD,从 89.12 降到 88.98,差距只有 0.14 #Shindo-et-al.-2024。论文措辞也比较克制,用的是 “for most sequences” 而不是 “for all sequences”。

Part 7 · 复现与局限
这篇论文可信,但不是一篇复现友好的论文

SA-ICM 的想法干净、图示直观、实验任务覆盖面也不错;但如果从复现和严谨比较角度看,仍有不少缺口。最重要的是,论文 Fig. 5-8 主要对比的是原 RL-based / Object-ICM 路线,并没有把 ROI-based 和 Task-loss-based 方法重新拿来实测。因此,“SA-ICM 最优”的范围更准确地说是:在作者设定的 RL-based 对比框架内,它比 Object-ICM 更好 #Object-ICM-2024 #Shindo-et-al.-2024

未披露项为什么重要
SA-NeRV 的 \(\alpha\) 取值视频实验的边缘密度无法精确复现
NeRV 损失中的 \(\beta\)L1 与 SSIM 权重会影响边缘/纹理平衡
优化器、学习率、batch size、epoch深度学习实验基本复现条件缺失
GPU 型号、训练时长、显存无法估计训练成本;README 只说测试约 11GB 显存足够 #SA-ICM-Code
SAM 模型大小ViT-B/L/H 的 mask 质量和速度不同
Canny 阈值边缘 mask 密度直接依赖 Canny 参数
YOLOv5 fine-tune 细节Fig. 5 的检测结果与 fine-tune 协议强相关

此外,论文将 \(\alpha\) 当成码率-精度曲线的扫描变量,但 \(\alpha\)\(\lambda\) 并不等价。\(\lambda\) 改的是 rate-distortion 权重,\(\alpha\) 改的是边缘 mask 内容;一个调优化强度,一个调监督区域。论文在实验中用改变 \(\alpha\) 的方式得到多个 compression performance points,但没有给出理论解释或 BD-rate 类型统计 #Shindo-et-al.-2024

不要过度解读隐私结论

论文摘要说 SA-ICM 会在编码端去除人脸信息,具有隐私保护收益;Fig. 4 也确实显示人脸纹理被抹掉。但论文没有做人脸检测率、身份识别准确率或 privacy attack 的定量实验。因此这只能作为定性附带收益,而不是严格隐私保证。

Part 8 · 总结
SA-ICM 的真正价值:把边缘先验变成压缩监督

SA-ICM 的技术难度不在于网络结构,而在于问题设定。它没有设计新的熵模型,没有提出复杂的 transformer block,也没有让 SAM 进入推理链路。它只是把 SAM 的 segmentation map 取边缘,再把这些边缘作为 MSE 的空间权重。正是这个小改动,把学习式图像压缩的目标从“复原纹理”推向“保留机器任务需要的结构”。

从边缘图像压缩系列的角度看,SA-ICM 是一个很好的现代样本。传统路线会直接压缩二值边缘图,例如 RLE、JBIG2、链码、线段编码;SA-ICM 则训练一个神经 codec,让它输出“接近边缘图的自然图像重建”。两者形式不同,但内核相同:纹理不是第一优先级,结构才是。

可迁移启发:如果手头是红外轮廓图、低纹理监控图或边缘主导的机器视觉输入,可以考虑把 SA-ICM 的思路改造成“任务边缘 mask 监督”:用传统边缘检测、SAM、热目标分割或人工规则生成 mask,只在这些结构区域训练压缩器。

当然,下一步真正有研究价值的问题不是“复现 SA-ICM”,而是问:边缘是否总是足够?不同任务需要哪类边缘?纹理、颜色、热强度和几何结构之间怎样分配码率?如果这些问题能被系统回答,边缘图像压缩就不只是一个小众红外问题,而会成为 Coding for Machines 中一条重要的结构优先路线。

References · 参考来源
论文、代码与前置工作

参考来源

  • Shindo, T., Yamada, K., Watanabe, T., & Watanabe, H. (2024). Image Coding for Machines with Edge Information Learning Using Segment Anything. IEEE ICIP 2024 / arXiv:2403.04173. arXiv HTML
  • final-0. SA-ICM official implementation. GitHub
  • Choi, H., & Bajić, I. V. (2022). Scalable Image Coding for Humans and Machines. IEEE Transactions on Image Processing, 31, 2739–2754. arXiv
  • Choi, H., & Bajić, I. V. (2018). High Efficiency Compression for Object Detection. ICASSP 2018. arXiv
  • Shindo, T., Watanabe, T., Yamada, K., & Watanabe, H. (2024). Image Coding for Machines with Object Region Learning. IEEE CCNC / arXiv:2308.13984. arXiv
  • Kirillov, A. et al. (2023). Segment Anything. ICCV 2023. arXiv
  • Chen, H. et al. (2021). NeRV: Neural Representations for Videos. NeurIPS 2021. arXiv
  • Liu, J., Sun, H., & Katto, J. (2023). Learned Image Compression with Mixed Transformer-CNN Architectures. CVPR 2023. arXiv
  • Bégaint, J., Racapé, F., Feltman, S., & Pushparaja, A. (2020). CompressAI: a PyTorch library and evaluation platform for end-to-end compression research. arXiv
  • Cheng, B. et al. (2020). Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation. CVPR 2020. arXiv
  • Choi, H. et al. (2021). A dataset of labelled objects on raw video sequences. Data in Brief, 34:106701. DOI
  • Wang, C.-Y., Bochkovskiy, A., & Liao, H.-Y. M. (2023). YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. CVPR 2023. arXiv
  • MPEG. Video Coding for Machines exploration. MPEG Standards
  • Streaming Learning Center. Real-Time Feature Coding for Machines: Inside the New MPEG Standard. Article
  • JPEG Committee. JPEG AI. Official page
  • Takahiro Shindo. Personal homepage and publications. Homepage
  • Waseda University. Hiroshi Watanabe researcher profile. Profile