ESC
输入关键词搜索文章
目录

图像压缩基础系列总览

从信息论到 AI 生成 · 7 篇系列
理解比特如何被节省——从香农到扩散模型
Introduction · 系列说明
为什么需要理解压缩?

每一张照片、每一段视频的背后,都有一套精密的数学在决定"哪些信息可以丢弃,哪些必须保留"。图像视频压缩是信息论最成功的工程实践之一:JPEG 标准让互联网图片成为可能,H.264 让在线视频普及全球,而神经网络压缩正在重新定义"压缩"的边界。

这个系列从信息论基础出发,沿着技术演进的时间线,系统梳理了传统压缩(无损/有损图像编码、小波变换、现代格式、视频编码标准)和基于机器学习的压缩方法。目标是建立完整的知识框架:不只是"知道某个算法",而是理解"为什么是这些算法,它们之间有什么联系,未来会走向哪里"。

📅 技术演进时间线
排序:
1948 — 1980s
信息论奠基与无损压缩

香农定义了信息熵和压缩的理论下界,Huffman 编码和算术编码将理论变为现实。LZ 系列算法统治了通用无损压缩。

核心问题:如何用最少的比特编码最多的信息?

1980s — 2000
DCT 与有损压缩的黄金时代

JPEG(1992)用 DCT 变换 + 量化 + Huffman 编码建立了有损压缩的标准范式。MPEG 和 H.26x 系列将同样的思想扩展到视频。

核心问题:人眼看不到的信息,能否大胆丢弃?

2000 — 2020
小波革命与格式多元化

JPEG2000(2000)用小波变换替代 DCT,支持多分辨率和渐进传输。WebP(2010)、AVIF(2019)借鉴视频编码工具,挑战 JPEG 的统治地位。

核心问题:DCT 的块效应能否被根除?

2013 — 至今
下一代视频编码与 AI 压缩

HEVC(2013)、AV1(2018)、VVC(2020)不断逼近率失真极限。与此同时,VAE、Transformer、扩散模型正在开辟全新的压缩范式。

核心问题:压缩和生成的边界在哪里?

文章关系图

43 篇文章 · 62 条连接

🗺️ 阅读路径
路径一:完整学习

按编号顺序阅读 01→07,从信息论基础到 AI 前沿,建立完整的知识体系。适合第一次接触压缩领域的读者。

路径二:图像压缩速览

只看图像相关:01(基础)→ 02(JPEG)→ 03(小波)→ 04(现代格式)。4 篇覆盖从 1948 到 2024 的图像压缩全貌。

路径三:视频编码专题

跳过图像基础,直接进入视频:05(H.264)→ 06(HEVC/AV1)。需要一定的图像压缩背景知识。

路径四:AI 压缩前沿

快速浏览 01(信息论基础)→ 07(ML 压缩)。适合已有传统压缩背景、想了解 AI 方向的读者。

📚 核心参考资源
资源类型说明
Shannon (1948)开创性论文信息论与熵编码的数学基础
ITU-T T.81 (JPEG)国际标准JPEG 压缩的完整规范
ISO/IEC 15444-1 (JPEG2000)国际标准JPEG2000 核心编码系统
ITU-T H.264/H.265国际标准视频编码标准
AOM AV1 Spec开放标准AV1 视频编码规范
Ballé et al. (2017, 2018)顶会论文端到端学习式压缩的奠基工作
Cheng et al. (2020, 2022)顶会论文量化 VAE 与 ELIC 模型