红外图像压缩系列（三）：边缘与轮廓压缩 — 从二值编码到 Coding for Machines

2026/06/15 11:17:48·2026/06/17 20:30:00

Part 0 · 问题定义

为什么红外边缘图不能按普通图像压缩来理解

这里讨论的“边缘图像压缩”不是普通 RGB 或灰度图像压缩的一个小分支，而是一类数据形态发生改变后的编码问题：红外图像中可用信息主要表现为目标轮廓、热边界、稀疏边缘或近二值结构，图像内容从“纹理—颜色—亮度场”退化或抽象为“背景—边缘—连通结构”。因此，压缩器真正需要保留的并不总是每个像素的精确灰度，而是轮廓的连通性、拓扑关系、几何形状和下游检测/跟踪任务可用性。

传统图像压缩的默认目标通常是在人眼视觉质量、PSNR/MS-SSIM、感知质量和码率之间折中；JPEG、JPEG2000、BPG、WebP、HEVC/VVC intra 以及现代 learned image compression 都默认图像存在丰富纹理、高频细节、颜色或灰度梯度。可是红外轮廓图经常更像一张稀疏的 1-bit 图：大部分区域为空背景，少量边缘像素组成线、曲线、闭合边界、断裂边界或噪声毛刺。对这类数据，继续使用面向自然图像纹理的 transform coding，可能并不是最优选择。

核心判断：红外边缘图像应优先被看作“稀疏结构图 / 二值语义图 / 轮廓集合”，而不是普通灰度图像。压缩目标也应从“像素误差最小”转向“结构保持、连通性保持、任务性能保持”。

图 1：红外边缘图像压缩的任务抽象。与自然图像压缩不同，这里首先要把灰度热辐射场转化为稀疏轮廓结构，再围绕空白块、轮廓曲线、重复边缘模式和下游任务进行编码。

这个问题同时连接五条技术线索：第一，传真和文档时代形成的二值图像压缩标准，如 CCITT Group 4、JBIG1 和 JBIG2；第二，计算机图形学和形状分析中的链码与轮廓编码；第三，结构保持的二值图像有损压缩，例如基于 Markov Random Field 的规格传输与重建；第四，语义分割图、占用图和地图轮廓压缩；第五，面向机器视觉任务的 Coding for Machines。下面按这五条线索展开。

数据特征	普通自然图像	红外边缘 / 轮廓图	压缩启发
像素取值	RGB / 灰度连续值	二值或少量离散值	可用二值图像标准与标签图压缩
空间分布	纹理、平滑区、高频细节混合	背景占绝大多数，边缘稀疏	空白区域跳过、RLE、四叉树
关键信息	视觉质量与感知真实性	连通性、轮廓形状、拓扑结构	链码、线段、结构保持指标
失真容忍	轻微纹理变化可接受	断裂、拓扑变化可能致命	不能只看 PSNR，应看 Chamfer / connectivity / task accuracy

Part 1 · 二值标准

像素级二值图像压缩：从 RLE 到 JBIG2

如果把红外边缘图直接看作 1-bit 图像，最自然的第一批 baseline 是传真、扫描文档和 bi-level image 领域的经典标准。它们并不理解“红外”或“目标轮廓”，但非常擅长处理黑白图、长背景游程和局部像素相关性。

Run-Length Encoding：最小但必要的基线

Run-Length Encoding, RLE 的基本思想是把连续相同像素表示为“值 + 长度”。对红外边缘图而言，背景通常占绝大多数，一条扫描线上往往出现很长的 0 游程和少数 1 边缘点，因此 RLE 是必须实现的最小 baseline。它的优点是编码解码极快、复杂度极低、适合嵌入式设备；缺点也同样明显：斜线、曲线和孤立噪声点会不断打断长游程，导致效率下降。

一个直观例子

扫描线 000000000111000000 可以写成 0×9, 1×3, 0×6。如果边缘非常稀疏，RLE 会很有效；如果噪声点很多，原本的长背景游程就会被切碎。

图 2：RLE 的基本工作方式。红外边缘图中的大片背景适合游程编码，但斜线、曲线和孤立噪声会不断制造短游程。

CCITT Group 3 / Group 4：传真图像的成熟无损路线

CCITT Group 3 与 Group 4 是传真和文档扫描时代形成的二值压缩标准。Group 3 对应 ITU-T T.4，Group 4 对应 ITU-T T.6。Group 3 的一维模式使用 Modified Huffman 对每条扫描线做游程编码，二维模式 Modified READ 参考上一扫描线编码当前行；Group 4 使用 Modified Modified READ，去除面向传真同步的部分机制，更适合存档型二值图像压缩 #ITU-T-T6。

美国国会图书馆的格式说明将 Group 4 描述为 bitonal / bi-level 图像的无损压缩方法，典型应用包括黑白扫描文档和 TIFF 图像，常见压缩比可达到约 15:1，具体取决于图像内容 #LOC-G4。对红外边缘图来说，Group 4 的优势来自两点：一是背景长游程，二是相邻扫描线之间的轮廓位置通常变化不大。它对水平或近水平边缘尤其友好；但对斜线、曲线和孤立噪声点不如轮廓级方法自然。

图 3：CCITT Group 4 的二维直觉。当前扫描线参考上一行的变化点，而不是完全独立编码整行；这解释了它为何适合文档与水平延伸的二值结构。

JBIG1：上下文模板与自适应算术编码

JBIG1 对应 ITU-T T.82 / ISO/IEC 11544，是面向 bi-level image data 的无损压缩标准。它的核心不只是扫描线 RLE，而是利用邻域上下文模板预测当前像素，再用自适应算术编码接近熵极限；同时支持 progressive coding，可以先传低分辨率版本，再逐步细化到完整图像 #ITU-T-T82。JBIG-KIT 的说明也指出，JBIG1 被广泛用于传真、打印机固件、文档管理和 imaging software #JBIG-KIT。

对红外边缘图而言，JBIG1 的意义在于它可以自动学习局部像素模式：曲线、角点、短断裂、孤立点都会通过上下文概率反映到码长中。它仍然是像素级方法，但比单纯 RLE 或 Group 4 更能处理不规则局部结构。渐进编码也很适合带宽受限链路：先传粗轮廓，必要时继续传细节。

JBIG2：最值得迁移思想的二值图像标准

JBIG2 对应 ITU-T T.88 / ISO/IEC 14492，标准标题即为 lossy/lossless coding of bi-level images。ITU-T T.88 明确说明 JBIG2 支持 lossy、lossless 和 lossy-to-lossless 的 bi-level image coding #ITU-T-T88。开源 jbig2enc 项目概括了 JBIG2 的几个关键能力：generic region encoding、symbol extraction、classification and text region coding、refinement coding 和 multi-page document compression #jbig2enc。

JBIG2 的关键思想是把二值图像分成 text、halftone 和 generic regions。对 text region，它会提取重复符号并建立字典，后续相似符号只需要编码字典索引与位置；如果要无损，则再通过 refinement coding 编码实例和模板之间的差异。这个思想虽然最初服务于文档和字符，但对红外边缘图非常有启发：建筑边缘、道路边界、机械轮廓、车辆轮廓中可能存在重复局部结构，它们可以像“符号”一样被提取、聚类、字典化，然后只编码变换参数与残差。

JBIG2 对红外轮廓图的迁移方式

可以把红外边缘 patch 或连通组件看成“非文本符号”：编码字典 ID、位置、方向、尺度，以及少量修正 mask。无法匹配的复杂区域则回退到 generic binary arithmetic coding。这会形成一种“JBIG2-style infrared edge dictionary codec”。

图 4：JBIG2-style 字典压缩的迁移方式。文档中的重复字符可以变成字典符号；红外轮廓图中的重复局部边缘结构也可以被模板化，只传实例位置、几何变换和残差。

Part 2 · 轮廓编码

从像素图到曲线：链码、顶点码与线段几何编码

二值标准仍然把图像看成像素矩阵，而红外边缘图的真实信息更像曲线集合。因此，第二条更自然的路线是先从边缘图中提取连通轮廓，再编码轮廓的运动方向或几何参数。

Freeman Chain Code：给轮廓写“行走日记”

Freeman 在 1961 年提出 chain code，用于计算机描述任意平面曲线 #Freeman-1961。其基本做法是：找到轮廓起点，沿边界逐像素追踪，每一步只记录移动方向。4 邻域链码每步需要 2 bit，8 邻域链码每步需要 3 bit。相比直接存储每个边缘点的二维坐标，链码显著减少码长，并且显式保留轮廓连通性。

进一步地，差分链码不编码绝对方向，而编码当前方向相对前一方向的变化。真实轮廓通常方向连续，方向变化分布高度集中，因此差分链码再接 Huffman、Markov 或 arithmetic coding 可以继续降低码率。

图 5：Freeman 8 方向链码。轮廓不再以像素矩阵保存，而是保存起点和沿边界行走的方向序列；方向变化再做熵编码，可以进一步利用曲线平滑性。

表示方式	编码对象	优点	缺点
点坐标列表	所有边缘像素坐标	简单、无损	每点成本高，不利用连续性
Freeman F4/F8	起点 + 方向序列	保留轮廓连通性，码率低	噪声和毛刺会拉长序列
差分链码	方向变化序列	利用方向平滑性，适合熵编码	断裂轮廓需要重新启动
线段编码	起点、终点、点数或误差	对长直线极高效	曲线需要折线逼近，有失真

Vertex Chain Code 与 Three-Orthogonal Chain Code

后续链码研究尝试进一步降低符号熵。Bribiesca 提出的 Vertex Chain Code 基于边界经过的网格顶点类型，而不是直接记录 8 个方向，因此可以用更少的符号描述曲线局部形态 #Bribiesca-1999。Three-Orthogonal Chain Code, 3OT 则经常出现在语义图压缩工作中，它通过相对转向描述边界，使符号分布更集中。

对红外轮廓图来说，VCC / 3OT 这类紧凑链码适合长而平滑的目标边界。它们比原始 Freeman F8 更接近“轮廓语言模型”：大多数时候轮廓继续向前，少数时候左转或右转。这个统计规律正适合 Markov model 或 adaptive arithmetic coding。

线段几何编码：从逐像素行走到参数化形状

如果一段轮廓本质上是直线，那么逐像素记录方向仍然冗余。Gerogiannis、Nikou 和 Kondi 在 ICIP 2015 的论文 Shape Encoding for Edge Map Image Compression 中直接研究 edge map image compression：他们将边缘图中的 shape manifold 建模为 line segments，每条线段编码 starting point、ending point 和 contributing points number，解码时在线段上均匀采样重建轮廓 #Gerogiannis-2015。

这篇论文对红外轮廓图高度相关。许多红外场景包含人造结构边缘，如建筑轮廓、道路边界、车辆外形和工业设备边缘，长直线或折线非常常见。对这些结构，线段编码可能远优于逐像素链码；对曲线部分，则可以用折线近似，并通过最大偏移误差或 Chamfer distance 控制失真。

图 6：线段几何编码。对近似直线的红外边缘，逐像素链码仍有冗余；用起点、终点和误差控制参数表示一整段轮廓，码率会明显降低。

工程启发：一个强红外边缘 codec 不应只选链码或线段，而应按连通组件自适应选择：长直轮廓用线段，平滑曲线用差分链码，复杂噪声块用二值算术编码 fallback。

Part 3 · 结构保持

近无损压缩：不要让轮廓断裂，不要让拓扑变形

红外边缘图的有损压缩不能只看像素错误率。一个像素级误差很小的重建，如果把闭合轮廓压断，可能会直接破坏目标检测；反过来，某些边缘整体平移一两个像素，若连通性和形状仍保持，下游任务可能几乎不受影响。因此，这类数据需要结构保持视角。

Reyes & Pappas：传输结构规格，而不是传输所有像素

Reyes、Zhao、Neuhoff 和 Pappas 关于 bilevel image lossy compression 的工作提供了重要参考。他们讨论一种基于 Markov Random Fields 的二值图像有损压缩方法：编码端将图像分块，只传输块类别、run endpoint、decision bit 等 specification；解码端在满足这些结构约束的条件下，用 MRF 模型重建最平滑、最合理的二值图像 #Reyes-Pappas-2008。

这一路线的关键不是“少传一点像素”，而是改变编码对象：传输的是结构约束，未指定部分由解码器根据局部相关性补全。对红外边缘图而言，可以进一步把 specification 设计为端点、交叉点、角点、进入/离开块的位置、局部方向和连通关系。这样即使码率极低，也尽量保留目标轮廓的拓扑骨架。

结构保持压缩的核心准则

对边缘图而言，错误的严重性不只取决于错了多少像素，而取决于这些错误是否改变了轮廓的结构功能：是否断开连通组件、是否删除小目标、是否破坏闭合边界、是否改变关键角点和分叉点。

图 7：结构保持的评价直觉。中间图像像素位置有偏移但轮廓闭合；右侧只丢失少量关键像素，却造成拓扑断裂。对红外目标检测而言，后者可能更严重。

评价指标：从 PSNR 转向边缘结构距离

因此，红外边缘图压缩的评价指标应包括像素、几何、拓扑和任务四个层次。像素级可以用 F1 / IoU；几何层可以用 Chamfer Distance 和 Hausdorff Distance；拓扑层应统计连通组件数量变化、endpoint error、junction error、closed contour preservation；任务层则直接看目标检测 mAP、跟踪 MOTA/IDF1 或分割 mIoU。

指标层次	代表指标	回答的问题
像素级	Precision / Recall / F1 / IoU	重建边缘点和原始边缘点有多少重合？
几何级	Chamfer / Hausdorff distance	轮廓整体偏移了多远？是否有局部极端错误？
拓扑级	Component count / endpoint / junction error	连通性、闭合性、分叉结构是否被破坏？
任务级	mAP / MOTA / IDF1 / mIoU	压缩后还能不能服务下游红外视觉任务？

Part 4 · 语义图与占用图

现代轮廓压缩：Semantic Map Compression 给出的新工具

近年来，语义分割图、占用图和地图轮廓压缩开始成为独立问题。它们与红外边缘图高度相似：像素取值有限，区域内部常常恒定，重要信息集中在边界。红外边缘图可以看成最简单的二值 semantic map：0 是 background，1 是 edge。若区分弱边缘、强边缘、目标边界和噪声，还可以扩展成多值标签图。

CC-SMC：四叉树分块 + 链码

Yang 等人在 2024 年提出 Chain coding-based segmentation map lossless compression, CC-SMC，用于语义分割图无损压缩 #Yang-CCSMC-2024。其基本思想是：先对语义图做 quadtree partitioning，均匀块直接编码标签，含边界的块用链码编码轮廓，再对链码序列做熵编码。这个框架适合同时处理大片均匀区域和复杂边界区域。

迁移到红外边缘图时，四叉树可以快速跳过大片空白背景；边缘密集块则交给链码。它比全图链码更稳健，因为不要求所有边缘先形成干净闭合轮廓；但四叉树分块也可能截断长轮廓，降低上下文建模效率。

ECC：扩展链码与共享边界跳过编码

Yang、Liao、Choi、Racapé 和 Bajić 在 2026 年的 Context Adaptive Extended Chain Coding for Semantic Map Compression 中进一步提出 Extended Chain Code, ECC #Yang-ECC-2026。ECC 扩展了传统 Freeman F8 的符号集，允许用更长距离的轮廓跳转表示平滑或长直边界；同时保留 3OT 作为 fallback，并使用 Markov model-based entropy coding 对符号序列建模。

该工作还提出 skip-coding 机制：当相邻语义区域共享边界时，只编码一次轮廓，后续区域通过 run-length signaling 跳过重复部分。论文摘要报告，相比 state-of-the-art benchmark，平均码率降低约 18%；相对现代通用无损 codec，编码器运行时间最高减少 98%，解码器最高减少 50% #Yang-ECC-2026。

对红外边缘图而言，ECC 的价值在于它更接近“轮廓专用语言”：长直边缘不必逐像素行走，方向上下文可以被 Markov 模型利用，多层等温轮廓或相邻结构也可能受益于共享边界跳过编码。即使最终不直接复现这篇方法，它也是设计现代红外轮廓 codec 的重要参照。

graph TD
  A[红外边缘图 / 二值轮廓图] --> B[空白区域检测]
  B --> C[四叉树或连通组件划分]
  C --> D{局部结构类型}
  D -->|大片背景| E[RLE / skip block]
  D -->|长直边缘| F[线段几何编码]
  D -->|平滑曲线| G[差分链码 / ECC]
  D -->|复杂噪声块| H[JBIG-style generic coding]
  E --> I[统一熵编码]
  F --> I
  G --> I
  H --> I
  I --> J[压缩码流]

Part 5 · Coding for Machines

如果边缘图是给机器看的，评价目标就应该跟任务绑定

如果红外边缘图最终用于目标检测、跟踪、识别或态势感知，那么压缩不一定要服务人眼，而应服务机器视觉模型。这就是 Image / Video / Feature Coding for Machines 的基本视角：压缩后的数据只要能让机器完成任务，就不必保留人类视觉意义上的完整图像。

SA-ICM：只学习对机器有用的边缘信息

Shindo 等人在 ICIP 2024 的 Image Coding for Machines with Edge Information Learning Using Segment Anything 中提出 SA-ICM：用 Segment Anything Model 生成 mask，提取物体边缘信息，然后训练 Learned Image Compression 模型只编码/解码对象边缘 #Shindo-SAICM-2024。论文摘要明确说，该方法 focuses on encoding and decoding only the edge information of object parts，并展示了其在图像识别任务中的优势，同时因为丢弃人脸纹理等细节而具有隐私保护效果 #Shindo-SAICM-2024。

这篇论文虽然面向自然图像，但与红外边缘图压缩有直接概念联系：红外轮廓图本身就是 edge information，因此可以把 SA-ICM 的训练目标改造成“直接压缩红外边缘表示，并以红外检测/跟踪任务性能为约束”。

扩散与地图辅助压缩：边缘作为生成条件

另一条相关路线是将边缘、深度或地图作为生成式压缩的条件。Morita 等人的 Edge-based Denoising Image Compression 在压缩框架中引入 Edge Estimation Network，从传输 latent 中估计边缘信息，并用边缘条件引导 diffusion denoising，以改善重建图像锐度 #Morita-EdgeDenoising-2024。Ye 等人的 MAGC 则在遥感极低码率压缩中使用 vector maps 作为语义和结构 guidance，缓解 diffusion 在低码率下的结构幻觉问题 #Ye-MAGC-2024。

这些工作提醒我们：边缘图既可以是压缩对象，也可以是辅助条件。如果原始红外图仍有灰度信息，可以考虑“边缘图 + 低频残差”的分层压缩；如果只有边缘图，则可直接把边缘作为主码流，并用任务模型或结构先验约束重建。

Part 6 · 方案建议

面向红外轮廓图的三层实验路线

第一层：建立强 baseline

第一步不应直接设计复杂模型，而应先回答：现成二值压缩标准在当前红外边缘数据上到底能做到什么程度？建议实现或调用 PNG、TIFF CCITT Group 4、JBIG1、JBIG2、packed bitmap + gzip/zstd、RLE + Huffman / arithmetic coding。评价 bpp、compression ratio、编码/解码时间、内存占用和对不同边缘密度的敏感性。

第二层：混合式轮廓 codec

最适合该任务的中期方案，是一个基于连通组件分析的 hybrid contour codec。流程可以是：红外图或已有边缘图输入，经过二值化、形态学去噪、细化、连通组件分析和轮廓追踪；随后对每个组件做 mode decision：长直轮廓用线段编码，平滑曲线用差分链码或 ECC，短小噪声点按重要性删除或点列表编码，复杂块回退到 JBIG-style generic coding；最后统一熵编码。

第三层：结构保持近无损或任务驱动压缩

如果目标是研究创新，可以进一步做 topology-preserving near-lossless infrared edge map compression。核心是定义结构失真指标，设计基于端点、角点、分叉点、线段和链码的混合表示，并用连通性约束控制压缩误差。若存在下游红外检测/跟踪标签，则可以转向 task-aware compression：在码率约束下最小化边缘结构误差和任务损失，而不再执着于逐像素无损。

阶段	目标	方法	预期产出
Baseline	弄清现成方法上限	G4 / JBIG / JBIG2 / RLE / PNG	码率、速度、边缘密度敏感性曲线
Contour Codec	针对轮廓结构提效	连通组件 + 链码 + 线段 + fallback	强工程算法与可解释码流
Structure-aware	极低码率下保持拓扑	关键点 / MRF / graph reconstruction	近无损结构压缩论文方向
Task-aware	服务检测/跟踪任务	rate + structure loss + task loss	Coding for Machines 红外压缩方向

最终建议：短期用 G4、JBIG1、JBIG2 和 RLE 建立强 baseline；中期做“空白跳过 + 线段 + 差分链码/ECC + generic fallback”的混合轮廓 codec；长期若要形成论文创新，应围绕拓扑保持近无损压缩或下游任务驱动红外边缘压缩展开。

References · 参考来源

文献与标准索引

参考来源

ITU-T Recommendation T.6. Facsimile coding schemes and coding control functions for Group 4 facsimile apparatus. ITU-T
Library of Congress. TIFF, Group 4 Compression. Format Description
ITU-T Recommendation T.82 / ISO/IEC 11544. Progressive bi-level image compression. ITU-T
Kuhn, M. G. JBIG-KIT lossless image compression library. Project page
ITU-T Recommendation T.88 / ISO/IEC 14492. Lossy/lossless coding of bi-level images. ITU-T
zdenop. jbig2enc: JBIG2 Encoder. GitHub
Freeman, H. (1961). Techniques for the computer description of arbitrary planar curves. AFIPS Spring Joint Computer Conference. DOI: 10.1145/1460690.1460726.
Bribiesca, E. (1999/2000). A chain code for representing 3D curves. Pattern Recognition. DOI: 10.1016/S0031-3203(99)00056-X.
Gerogiannis, D., Nikou, C., & Kondi, D. (2015). Shape Encoding for Edge Map Image Compression. IEEE ICIP 2015. DOI: 10.1109/ICIP.2015.7350844. PDF
Reyes, M. G., Zhao, X., Neuhoff, D. L., & Pappas, T. N. (2008). Structure-preserving properties of bilevel image compression. HVEI / ICIP line of work. PDF
Yang et al. (2024). Chain coding-based segmentation map lossless compression. Journal of Visual Communication and Image Representation, 103, 104222. DOI: 10.1016/j.jvcir.2024.104222.
Yang, R., Liao, J., Choi, H., Racapé, F., & Bajić, I. V. (2026). Context Adaptive Extended Chain Coding for Semantic Map Compression. arXiv:2603.03073. arXiv HTML
Shindo, T. et al. (2024). Image Coding for Machines with Edge Information Learning Using Segment Anything. ICIP 2024 / arXiv:2403.04173. arXiv HTML
Morita, R. et al. (2024). Edge-based Denoising Image Compression. arXiv:2409.10978. arXiv HTML
Ye, Y., Wang, C., Sun, W., & Chen, Z. (2024). Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates. arXiv:2409.01935. arXiv HTML
Sun, R. et al. (2022). Survey of Image Edge Detection. Frontiers in Signal Processing. DOI: 10.3389/frsip.2022.826967. Full text
lingyzhu0101. Awesome VCM: Paper List of Visual Data Compression for Machines. GitHub

图像压缩专题返回系列总览当前文章边缘图像压缩调研下一篇SA-ICM 深度解读

边缘图像压缩调研

Run-Length Encoding：最小但必要的基线

一个直观例子

CCITT Group 3 / Group 4：传真图像的成熟无损路线

JBIG1：上下文模板与自适应算术编码

JBIG2：最值得迁移思想的二值图像标准

JBIG2 对红外轮廓图的迁移方式

Freeman Chain Code：给轮廓写“行走日记”

Vertex Chain Code 与 Three-Orthogonal Chain Code

线段几何编码：从逐像素行走到参数化形状

Reyes & Pappas：传输结构规格，而不是传输所有像素

结构保持压缩的核心准则

评价指标：从 PSNR 转向边缘结构距离

CC-SMC：四叉树分块 + 链码

ECC：扩展链码与共享边界跳过编码

SA-ICM：只学习对机器有用的边缘信息

扩散与地图辅助压缩：边缘作为生成条件

第一层：建立强 baseline

第二层：混合式轮廓 codec

推荐码流结构

第三层：结构保持近无损或任务驱动压缩

参考来源