边缘图像压缩调研
这里讨论的“边缘图像压缩”不是普通 RGB 或灰度图像压缩的一个小分支,而是一类数据形态发生改变后的编码问题:红外图像中可用信息主要表现为目标轮廓、热边界、稀疏边缘或近二值结构,图像内容从“纹理—颜色—亮度场”退化或抽象为“背景—边缘—连通结构”。因此,压缩器真正需要保留的并不总是每个像素的精确灰度,而是轮廓的连通性、拓扑关系、几何形状和下游检测/跟踪任务可用性。
传统图像压缩的默认目标通常是在人眼视觉质量、PSNR/MS-SSIM、感知质量和码率之间折中;JPEG、JPEG2000、BPG、WebP、HEVC/VVC intra 以及现代 learned image compression 都默认图像存在丰富纹理、高频细节、颜色或灰度梯度。可是红外轮廓图经常更像一张稀疏的 1-bit 图:大部分区域为空背景,少量边缘像素组成线、曲线、闭合边界、断裂边界或噪声毛刺。对这类数据,继续使用面向自然图像纹理的 transform coding,可能并不是最优选择。
这个问题同时连接五条技术线索:第一,传真和文档时代形成的二值图像压缩标准,如 CCITT Group 4、JBIG1 和 JBIG2;第二,计算机图形学和形状分析中的链码与轮廓编码;第三,结构保持的二值图像有损压缩,例如基于 Markov Random Field 的规格传输与重建;第四,语义分割图、占用图和地图轮廓压缩;第五,面向机器视觉任务的 Coding for Machines。下面按这五条线索展开。
| 数据特征 | 普通自然图像 | 红外边缘 / 轮廓图 | 压缩启发 |
|---|---|---|---|
| 像素取值 | RGB / 灰度连续值 | 二值或少量离散值 | 可用二值图像标准与标签图压缩 |
| 空间分布 | 纹理、平滑区、高频细节混合 | 背景占绝大多数,边缘稀疏 | 空白区域跳过、RLE、四叉树 |
| 关键信息 | 视觉质量与感知真实性 | 连通性、轮廓形状、拓扑结构 | 链码、线段、结构保持指标 |
| 失真容忍 | 轻微纹理变化可接受 | 断裂、拓扑变化可能致命 | 不能只看 PSNR,应看 Chamfer / connectivity / task accuracy |
如果把红外边缘图直接看作 1-bit 图像,最自然的第一批 baseline 是传真、扫描文档和 bi-level image 领域的经典标准。它们并不理解“红外”或“目标轮廓”,但非常擅长处理黑白图、长背景游程和局部像素相关性。
Run-Length Encoding:最小但必要的基线
Run-Length Encoding, RLE 的基本思想是把连续相同像素表示为“值 + 长度”。对红外边缘图而言,背景通常占绝大多数,一条扫描线上往往出现很长的 0 游程和少数 1 边缘点,因此 RLE 是必须实现的最小 baseline。它的优点是编码解码极快、复杂度极低、适合嵌入式设备;缺点也同样明显:斜线、曲线和孤立噪声点会不断打断长游程,导致效率下降。
一个直观例子
扫描线 000000000111000000 可以写成 0×9, 1×3, 0×6。如果边缘非常稀疏,RLE 会很有效;如果噪声点很多,原本的长背景游程就会被切碎。
CCITT Group 3 / Group 4:传真图像的成熟无损路线
CCITT Group 3 与 Group 4 是传真和文档扫描时代形成的二值压缩标准。Group 3 对应 ITU-T T.4,Group 4 对应 ITU-T T.6。Group 3 的一维模式使用 Modified Huffman 对每条扫描线做游程编码,二维模式 Modified READ 参考上一扫描线编码当前行;Group 4 使用 Modified Modified READ,去除面向传真同步的部分机制,更适合存档型二值图像压缩 #ITU-T-T6。
美国国会图书馆的格式说明将 Group 4 描述为 bitonal / bi-level 图像的无损压缩方法,典型应用包括黑白扫描文档和 TIFF 图像,常见压缩比可达到约 15:1,具体取决于图像内容 #LOC-G4。对红外边缘图来说,Group 4 的优势来自两点:一是背景长游程,二是相邻扫描线之间的轮廓位置通常变化不大。它对水平或近水平边缘尤其友好;但对斜线、曲线和孤立噪声点不如轮廓级方法自然。
JBIG1:上下文模板与自适应算术编码
JBIG1 对应 ITU-T T.82 / ISO/IEC 11544,是面向 bi-level image data 的无损压缩标准。它的核心不只是扫描线 RLE,而是利用邻域上下文模板预测当前像素,再用自适应算术编码接近熵极限;同时支持 progressive coding,可以先传低分辨率版本,再逐步细化到完整图像 #ITU-T-T82。JBIG-KIT 的说明也指出,JBIG1 被广泛用于传真、打印机固件、文档管理和 imaging software #JBIG-KIT。
对红外边缘图而言,JBIG1 的意义在于它可以自动学习局部像素模式:曲线、角点、短断裂、孤立点都会通过上下文概率反映到码长中。它仍然是像素级方法,但比单纯 RLE 或 Group 4 更能处理不规则局部结构。渐进编码也很适合带宽受限链路:先传粗轮廓,必要时继续传细节。
JBIG2:最值得迁移思想的二值图像标准
JBIG2 对应 ITU-T T.88 / ISO/IEC 14492,标准标题即为 lossy/lossless coding of bi-level images。ITU-T T.88 明确说明 JBIG2 支持 lossy、lossless 和 lossy-to-lossless 的 bi-level image coding #ITU-T-T88。开源 jbig2enc 项目概括了 JBIG2 的几个关键能力:generic region encoding、symbol extraction、classification and text region coding、refinement coding 和 multi-page document compression #jbig2enc。
JBIG2 的关键思想是把二值图像分成 text、halftone 和 generic regions。对 text region,它会提取重复符号并建立字典,后续相似符号只需要编码字典索引与位置;如果要无损,则再通过 refinement coding 编码实例和模板之间的差异。这个思想虽然最初服务于文档和字符,但对红外边缘图非常有启发:建筑边缘、道路边界、机械轮廓、车辆轮廓中可能存在重复局部结构,它们可以像“符号”一样被提取、聚类、字典化,然后只编码变换参数与残差。
JBIG2 对红外轮廓图的迁移方式
可以把红外边缘 patch 或连通组件看成“非文本符号”:编码字典 ID、位置、方向、尺度,以及少量修正 mask。无法匹配的复杂区域则回退到 generic binary arithmetic coding。这会形成一种“JBIG2-style infrared edge dictionary codec”。
二值标准仍然把图像看成像素矩阵,而红外边缘图的真实信息更像曲线集合。因此,第二条更自然的路线是先从边缘图中提取连通轮廓,再编码轮廓的运动方向或几何参数。
Freeman Chain Code:给轮廓写“行走日记”
Freeman 在 1961 年提出 chain code,用于计算机描述任意平面曲线 #Freeman-1961。其基本做法是:找到轮廓起点,沿边界逐像素追踪,每一步只记录移动方向。4 邻域链码每步需要 2 bit,8 邻域链码每步需要 3 bit。相比直接存储每个边缘点的二维坐标,链码显著减少码长,并且显式保留轮廓连通性。
进一步地,差分链码不编码绝对方向,而编码当前方向相对前一方向的变化。真实轮廓通常方向连续,方向变化分布高度集中,因此差分链码再接 Huffman、Markov 或 arithmetic coding 可以继续降低码率。
| 表示方式 | 编码对象 | 优点 | 缺点 |
|---|---|---|---|
| 点坐标列表 | 所有边缘像素坐标 | 简单、无损 | 每点成本高,不利用连续性 |
| Freeman F4/F8 | 起点 + 方向序列 | 保留轮廓连通性,码率低 | 噪声和毛刺会拉长序列 |
| 差分链码 | 方向变化序列 | 利用方向平滑性,适合熵编码 | 断裂轮廓需要重新启动 |
| 线段编码 | 起点、终点、点数或误差 | 对长直线极高效 | 曲线需要折线逼近,有失真 |
Vertex Chain Code 与 Three-Orthogonal Chain Code
后续链码研究尝试进一步降低符号熵。Bribiesca 提出的 Vertex Chain Code 基于边界经过的网格顶点类型,而不是直接记录 8 个方向,因此可以用更少的符号描述曲线局部形态 #Bribiesca-1999。Three-Orthogonal Chain Code, 3OT 则经常出现在语义图压缩工作中,它通过相对转向描述边界,使符号分布更集中。
对红外轮廓图来说,VCC / 3OT 这类紧凑链码适合长而平滑的目标边界。它们比原始 Freeman F8 更接近“轮廓语言模型”:大多数时候轮廓继续向前,少数时候左转或右转。这个统计规律正适合 Markov model 或 adaptive arithmetic coding。
线段几何编码:从逐像素行走到参数化形状
如果一段轮廓本质上是直线,那么逐像素记录方向仍然冗余。Gerogiannis、Nikou 和 Kondi 在 ICIP 2015 的论文 Shape Encoding for Edge Map Image Compression 中直接研究 edge map image compression:他们将边缘图中的 shape manifold 建模为 line segments,每条线段编码 starting point、ending point 和 contributing points number,解码时在线段上均匀采样重建轮廓 #Gerogiannis-2015。
这篇论文对红外轮廓图高度相关。许多红外场景包含人造结构边缘,如建筑轮廓、道路边界、车辆外形和工业设备边缘,长直线或折线非常常见。对这些结构,线段编码可能远优于逐像素链码;对曲线部分,则可以用折线近似,并通过最大偏移误差或 Chamfer distance 控制失真。
红外边缘图的有损压缩不能只看像素错误率。一个像素级误差很小的重建,如果把闭合轮廓压断,可能会直接破坏目标检测;反过来,某些边缘整体平移一两个像素,若连通性和形状仍保持,下游任务可能几乎不受影响。因此,这类数据需要结构保持视角。
Reyes & Pappas:传输结构规格,而不是传输所有像素
Reyes、Zhao、Neuhoff 和 Pappas 关于 bilevel image lossy compression 的工作提供了重要参考。他们讨论一种基于 Markov Random Fields 的二值图像有损压缩方法:编码端将图像分块,只传输块类别、run endpoint、decision bit 等 specification;解码端在满足这些结构约束的条件下,用 MRF 模型重建最平滑、最合理的二值图像 #Reyes-Pappas-2008。
这一路线的关键不是“少传一点像素”,而是改变编码对象:传输的是结构约束,未指定部分由解码器根据局部相关性补全。对红外边缘图而言,可以进一步把 specification 设计为端点、交叉点、角点、进入/离开块的位置、局部方向和连通关系。这样即使码率极低,也尽量保留目标轮廓的拓扑骨架。
结构保持压缩的核心准则
对边缘图而言,错误的严重性不只取决于错了多少像素,而取决于这些错误是否改变了轮廓的结构功能:是否断开连通组件、是否删除小目标、是否破坏闭合边界、是否改变关键角点和分叉点。
评价指标:从 PSNR 转向边缘结构距离
因此,红外边缘图压缩的评价指标应包括像素、几何、拓扑和任务四个层次。像素级可以用 F1 / IoU;几何层可以用 Chamfer Distance 和 Hausdorff Distance;拓扑层应统计连通组件数量变化、endpoint error、junction error、closed contour preservation;任务层则直接看目标检测 mAP、跟踪 MOTA/IDF1 或分割 mIoU。
| 指标层次 | 代表指标 | 回答的问题 |
|---|---|---|
| 像素级 | Precision / Recall / F1 / IoU | 重建边缘点和原始边缘点有多少重合? |
| 几何级 | Chamfer / Hausdorff distance | 轮廓整体偏移了多远?是否有局部极端错误? |
| 拓扑级 | Component count / endpoint / junction error | 连通性、闭合性、分叉结构是否被破坏? |
| 任务级 | mAP / MOTA / IDF1 / mIoU | 压缩后还能不能服务下游红外视觉任务? |
近年来,语义分割图、占用图和地图轮廓压缩开始成为独立问题。它们与红外边缘图高度相似:像素取值有限,区域内部常常恒定,重要信息集中在边界。红外边缘图可以看成最简单的二值 semantic map:0 是 background,1 是 edge。若区分弱边缘、强边缘、目标边界和噪声,还可以扩展成多值标签图。
CC-SMC:四叉树分块 + 链码
Yang 等人在 2024 年提出 Chain coding-based segmentation map lossless compression, CC-SMC,用于语义分割图无损压缩 #Yang-CCSMC-2024。其基本思想是:先对语义图做 quadtree partitioning,均匀块直接编码标签,含边界的块用链码编码轮廓,再对链码序列做熵编码。这个框架适合同时处理大片均匀区域和复杂边界区域。
迁移到红外边缘图时,四叉树可以快速跳过大片空白背景;边缘密集块则交给链码。它比全图链码更稳健,因为不要求所有边缘先形成干净闭合轮廓;但四叉树分块也可能截断长轮廓,降低上下文建模效率。
ECC:扩展链码与共享边界跳过编码
Yang、Liao、Choi、Racapé 和 Bajić 在 2026 年的 Context Adaptive Extended Chain Coding for Semantic Map Compression 中进一步提出 Extended Chain Code, ECC #Yang-ECC-2026。ECC 扩展了传统 Freeman F8 的符号集,允许用更长距离的轮廓跳转表示平滑或长直边界;同时保留 3OT 作为 fallback,并使用 Markov model-based entropy coding 对符号序列建模。
该工作还提出 skip-coding 机制:当相邻语义区域共享边界时,只编码一次轮廓,后续区域通过 run-length signaling 跳过重复部分。论文摘要报告,相比 state-of-the-art benchmark,平均码率降低约 18%;相对现代通用无损 codec,编码器运行时间最高减少 98%,解码器最高减少 50% #Yang-ECC-2026。
对红外边缘图而言,ECC 的价值在于它更接近“轮廓专用语言”:长直边缘不必逐像素行走,方向上下文可以被 Markov 模型利用,多层等温轮廓或相邻结构也可能受益于共享边界跳过编码。即使最终不直接复现这篇方法,它也是设计现代红外轮廓 codec 的重要参照。
graph TD
A[红外边缘图 / 二值轮廓图] --> B[空白区域检测]
B --> C[四叉树或连通组件划分]
C --> D{局部结构类型}
D -->|大片背景| E[RLE / skip block]
D -->|长直边缘| F[线段几何编码]
D -->|平滑曲线| G[差分链码 / ECC]
D -->|复杂噪声块| H[JBIG-style generic coding]
E --> I[统一熵编码]
F --> I
G --> I
H --> I
I --> J[压缩码流]
如果红外边缘图最终用于目标检测、跟踪、识别或态势感知,那么压缩不一定要服务人眼,而应服务机器视觉模型。这就是 Image / Video / Feature Coding for Machines 的基本视角:压缩后的数据只要能让机器完成任务,就不必保留人类视觉意义上的完整图像。
SA-ICM:只学习对机器有用的边缘信息
Shindo 等人在 ICIP 2024 的 Image Coding for Machines with Edge Information Learning Using Segment Anything 中提出 SA-ICM:用 Segment Anything Model 生成 mask,提取物体边缘信息,然后训练 Learned Image Compression 模型只编码/解码对象边缘 #Shindo-SAICM-2024。论文摘要明确说,该方法 focuses on encoding and decoding only the edge information of object parts,并展示了其在图像识别任务中的优势,同时因为丢弃人脸纹理等细节而具有隐私保护效果 #Shindo-SAICM-2024。
这篇论文虽然面向自然图像,但与红外边缘图压缩有直接概念联系:红外轮廓图本身就是 edge information,因此可以把 SA-ICM 的训练目标改造成“直接压缩红外边缘表示,并以红外检测/跟踪任务性能为约束”。
扩散与地图辅助压缩:边缘作为生成条件
另一条相关路线是将边缘、深度或地图作为生成式压缩的条件。Morita 等人的 Edge-based Denoising Image Compression 在压缩框架中引入 Edge Estimation Network,从传输 latent 中估计边缘信息,并用边缘条件引导 diffusion denoising,以改善重建图像锐度 #Morita-EdgeDenoising-2024。Ye 等人的 MAGC 则在遥感极低码率压缩中使用 vector maps 作为语义和结构 guidance,缓解 diffusion 在低码率下的结构幻觉问题 #Ye-MAGC-2024。
这些工作提醒我们:边缘图既可以是压缩对象,也可以是辅助条件。如果原始红外图仍有灰度信息,可以考虑“边缘图 + 低频残差”的分层压缩;如果只有边缘图,则可直接把边缘作为主码流,并用任务模型或结构先验约束重建。
第一层:建立强 baseline
第一步不应直接设计复杂模型,而应先回答:现成二值压缩标准在当前红外边缘数据上到底能做到什么程度?建议实现或调用 PNG、TIFF CCITT Group 4、JBIG1、JBIG2、packed bitmap + gzip/zstd、RLE + Huffman / arithmetic coding。评价 bpp、compression ratio、编码/解码时间、内存占用和对不同边缘密度的敏感性。
第二层:混合式轮廓 codec
最适合该任务的中期方案,是一个基于连通组件分析的 hybrid contour codec。流程可以是:红外图或已有边缘图输入,经过二值化、形态学去噪、细化、连通组件分析和轮廓追踪;随后对每个组件做 mode decision:长直轮廓用线段编码,平滑曲线用差分链码或 ECC,短小噪声点按重要性删除或点列表编码,复杂块回退到 JBIG-style generic coding;最后统一熵编码。
推荐码流结构
- 图像尺寸与预处理参数:阈值、细化方式、是否去噪。
- 组件数量与组件起点:支持随机访问和局部解码。
- 组件类型:点、短线、长线、闭合轮廓、分叉结构、复杂块。
- 编码模式:RLE、F8/differential chain code、3OT/ECC、line segment、generic bitmap fallback。
- 可选残差层:用于近无损恢复被折线近似或噪声剪枝造成的误差。
第三层:结构保持近无损或任务驱动压缩
如果目标是研究创新,可以进一步做 topology-preserving near-lossless infrared edge map compression。核心是定义结构失真指标,设计基于端点、角点、分叉点、线段和链码的混合表示,并用连通性约束控制压缩误差。若存在下游红外检测/跟踪标签,则可以转向 task-aware compression:在码率约束下最小化边缘结构误差和任务损失,而不再执着于逐像素无损。
| 阶段 | 目标 | 方法 | 预期产出 |
|---|---|---|---|
| Baseline | 弄清现成方法上限 | G4 / JBIG / JBIG2 / RLE / PNG | 码率、速度、边缘密度敏感性曲线 |
| Contour Codec | 针对轮廓结构提效 | 连通组件 + 链码 + 线段 + fallback | 强工程算法与可解释码流 |
| Structure-aware | 极低码率下保持拓扑 | 关键点 / MRF / graph reconstruction | 近无损结构压缩论文方向 |
| Task-aware | 服务检测/跟踪任务 | rate + structure loss + task loss | Coding for Machines 红外压缩方向 |
参考来源
- ITU-T Recommendation T.6. Facsimile coding schemes and coding control functions for Group 4 facsimile apparatus. ITU-T
- Library of Congress. TIFF, Group 4 Compression. Format Description
- ITU-T Recommendation T.82 / ISO/IEC 11544. Progressive bi-level image compression. ITU-T
- Kuhn, M. G. JBIG-KIT lossless image compression library. Project page
- ITU-T Recommendation T.88 / ISO/IEC 14492. Lossy/lossless coding of bi-level images. ITU-T
- zdenop. jbig2enc: JBIG2 Encoder. GitHub
- Freeman, H. (1961). Techniques for the computer description of arbitrary planar curves. AFIPS Spring Joint Computer Conference. DOI: 10.1145/1460690.1460726.
- Bribiesca, E. (1999/2000). A chain code for representing 3D curves. Pattern Recognition. DOI: 10.1016/S0031-3203(99)00056-X.
- Gerogiannis, D., Nikou, C., & Kondi, D. (2015). Shape Encoding for Edge Map Image Compression. IEEE ICIP 2015. DOI: 10.1109/ICIP.2015.7350844. PDF
- Reyes, M. G., Zhao, X., Neuhoff, D. L., & Pappas, T. N. (2008). Structure-preserving properties of bilevel image compression. HVEI / ICIP line of work. PDF
- Yang et al. (2024). Chain coding-based segmentation map lossless compression. Journal of Visual Communication and Image Representation, 103, 104222. DOI: 10.1016/j.jvcir.2024.104222.
- Yang, R., Liao, J., Choi, H., Racapé, F., & Bajić, I. V. (2026). Context Adaptive Extended Chain Coding for Semantic Map Compression. arXiv:2603.03073. arXiv HTML
- Shindo, T. et al. (2024). Image Coding for Machines with Edge Information Learning Using Segment Anything. ICIP 2024 / arXiv:2403.04173. arXiv HTML
- Morita, R. et al. (2024). Edge-based Denoising Image Compression. arXiv:2409.10978. arXiv HTML
- Ye, Y., Wang, C., Sun, W., & Chen, Z. (2024). Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates. arXiv:2409.01935. arXiv HTML
- Sun, R. et al. (2022). Survey of Image Edge Detection. Frontiers in Signal Processing. DOI: 10.3389/frsip.2022.826967. Full text
- lingyzhu0101. Awesome VCM: Paper List of Visual Data Compression for Machines. GitHub