图像压缩基础系列（六）：H.265/HEVC、AV1 与下一代视频编码

2026/05/29 21:15:31

AI图像压缩·14 min read

H.265 HEVC AV1 AV2 视频编码 Film Grain VVC

引言

视频编码的三代标准

H.264/AVC 在 2003 年发布后迅速成为视频编码的事实标准。但随着 4K/8K 分辨率、HDR 内容、高帧率视频的兴起，H.264 的压缩效率开始力不从心。这催生了三代新的视频编码标准：

H.265/HEVC（2013）：MPEG/ITU-T 的正统继承者，压缩效率比 H.264 提升 50%

AV1（2018）：Alliance for Open Media 的开源替代，压缩效率比 H.264 提升 50%–60%

AV2（开发中）：AV1 的下一代，目标比 AV1 再提升 30%–40%

本篇将系统拆解这三代标准的技术演进。

Part 1

H.265/HEVC：编码树的革命

HEVC（High Efficiency Video Coding）于 2013 年由 JCT-VC（Joint Collaborative Team on Video Coding）发布。它在 H.264 的架构基础上进行了全面升级。

核心改进一：编码树单元（CTU）

H.264 使用固定的 16×16 宏块。HEVC 引入了编码树单元（Coding Tree Unit, CTU），最大可达 64×64。

CTU 通过四叉树递归划分为编码单元（CU）：

64×64 CTU
  ├── 32×32 CU
  │     ├── 16×16 CU
  │     │     ├── 8×8 CU
  │     │     └── 8×8 CU
  │     └── 16×16 CU
  └── 32×32 CU
        └── 16×16 CU
              ├── 8×8 CU
              ├── 8×8 CU
              └── 8×8 CU

CTU 的优势：对于大面积平坦区域（如天空），一个 64×64 的 CU 可以用一组编码参数表示，而 H.264 需要 16 个 16×16 宏块，每个都携带独立的头信息。

核心改进二：35 种帧内预测模式

H.264 的 4×4 帧内预测有 9 种模式。HEVC 将其扩展到 35 种：

1 种 DC 模式

1 种 Planar 模式（平面预测，适合平滑渐变区域）

33 种角度预测模式，覆盖从 -135° 到 +135° 的方向范围

33 种角度模式以约 4.5° 的间隔均匀分布在半圆上。更多的预测角度意味着更精确的方向性预测，对于包含大量斜线和曲线的图像（如建筑、文字）尤其有效。

核心改进三：变换与量化

HEVC 支持多种变换块大小：

变换大小	支持的变换类型
4×4	DCT, DST-VII
8×8 到 32×32	DCT
非方形（4×8, 8×4 等）	DCT

DST-VII（离散正弦变换）是 HEVC 的新引入，用于 4×4 帧内预测残差块。研究表明，帧内预测残差的统计特性更适合正弦基函数，使用 DST-VII 比 DCT 可以获得 1%–3% 的压缩增益。

核心改进四：环路滤波

HEVC 在 H.264 的去块滤波基础上增加了 SAO（Sample Adaptive Offset）：

SAO 对去块滤波后的像素进行分类，对每个类别施加一个偏移量（offset）。SAO 有两种模式：

1. Edge Offset（EO）：根据像素与邻居的大小关系分类（5 种边缘方向模板）

2. Band Offset（BO）：根据像素值所在的亮度区间分类（16 个带）

SAO 可以恢复量化过程中损失的 1–2 dB PSNR 质量，特别有助于减少平坦区域的带状伪影（banding artifacts）。

核心改进五：并行处理

HEVC 引入了多种并行处理工具：

Wavefront Parallel Processing（WPP）：将每行 CTU 分成独立的编码线程

Tiles：将帧分成矩形区域，可以独立编码和解码

Slice/VP（Viewpoint）：支持多 slice 并行

这些工具使得 HEVC 编码器可以充分利用多核处理器的并行能力。

HEVC 的性能

相比 H.264，HEVC 在相同视觉质量下可以节省约 50% 的比特：

分辨率	H.264 码率	H.265 码率	节省
720p	3,000 kbps	1,500 kbps	50%
1080p	5,000 kbps	2,500 kbps	50%
4K	20,000 kbps	10,000 kbps	50%

HEVC 的专利困境

HEVC 的最大问题是专利许可。它涉及多个专利池（MPEG LA、Velos Media、HEVC Advance），许可费高昂且结构复杂。这导致：

Chrome 和 Firefox 不支持 HEVC 播放

开源实现（如 x265）受到许可限制

推动了 AV1 等免版税替代方案的发展

Part 2

AV1：开源免版税的挑战者

AV1 由 Alliance for Open Media（AOM）于 2018 年发布。AOM 的创始成员包括 Google、Apple、Netflix、Amazon、Microsoft、Meta、Cisco 和 Intel——这些公司有强烈的动机推动一个免版税的视频编码标准。

超级块与灵活划分

AV1 使用 128×128 的超级块（Superblock），支持多种划分模式：

四叉树划分：递归地将块分成 4 个等大子块

水平二叉划分：将块水平分成两半

垂直二叉划分：将块垂直分成两半

T 型划分：将块分成 3 个子块（T 形状）

最小编码块大小为 4×4。这种灵活的划分比 HEVC 的纯四叉树更加高效，特别是在处理非方形的运动区域时。

帧内预测

AV1 提供了 61 种帧内预测模式（5 种非方向 + 56 种方向）：

非方向模式（5 种）：DC、Vertical、Horizontal、Smooth H、Smooth V

方向模式（56 种）：8 个主方向 × 7 个角度插值

此外，AV1 支持帧内预测的滤波：对参考像素进行可选的高通/低通滤波，以提高预测质量。

变换工具

AV1 支持多种变换类型的组合：

变换	全称	特点
DCT	Discrete Cosine Transform	标准变换
ADST	Asymmetric DST	适合边缘信号
Identity	无变换	直接量化
Flip DCT	旋转 DCT	DCT 的旋转版本

AV1 允许在同一块的不同方向使用不同的变换（称为复合变换选择），这种灵活性是其他编码器不具备的。

Film Grain 合成

AV1 的标志性工具之一。编码流程：

1. 编码器分析原始帧中的胶片颗粒特征

2. 估计颗粒模型参数（粒度、幅度、空间自相关）

3. 将干净图像编码到码流中

4. 码流中携带颗粒参数

5. 解码器在解码后的干净图像上合成颗粒

Netflix 报告称，Film Grain 合成对胶片质感内容可以节省 20%–40% 的比特，同时保持甚至提升视觉质量。

AV1 的压缩性能

AV1 在相同质量下比 H.264 节省约 50%–60% 的比特，比 HEVC 节省约 10%–20%。但编码复杂度也显著更高：

编码器	1080p 编码速度	相对质量
x264 (H.264)	120–180 fps	基准
x265 (HEVC)	15–30 fps	+50% 效率
libaom (AV1)	1–5 fps	+50%–60% 效率
SVT-AV1	15–40 fps	接近 libaom

SVT-AV1 是 Intel 开发的高速 AV1 编码器，通过并行化和算法优化将编码速度提升到实用水平。

Part 3

AV2：下一代视频编码

AV2 由 AOM 于 2020 年开始开发，目标是在 AV1 的基础上再提升 30%–40% 的压缩效率。目前仍处于实验阶段（使用 AVM，AOM Video Model 作为参考实现）。

AV2 的关键新技术

变换与熵编码

AV1 使用单一的变换类型。AV2 引入了多种新变换：

IST（Integer Sine Transform）：对特定残差模式更高效

TCQ（Trellis Coded Quantization）：网格编码量化，比标量量化更接近率失真最优

ATC（Adaptive Transform Coding）：自适应变换编码

CCTX（Cross-Component Transform Coding）：跨分量变换，利用亮度和色度之间的相关性

扩展的块划分

AV2 在 AV1 的四叉树+二叉树基础上增加了更多划分模式：

三叉划分（将块分成 3 等分）

更灵活的非方形划分

支持更大的变换块

改进的 Film Grain 合成

AV2 的 Film Grain 合成支持更灵活的块大小配置（AV1 固定为 32×32 块 + 64×64 模板），允许对不同区域使用不同粒度的颗粒模型。

空间和体积视频支持

AV2 内置了对空间视频（Spatial Video）和体积视频（Volumetric Video）的支持，为 AR/VR 应用做准备。

AV2 的压缩性能

根据 AVM 实验结果，AV2 相比 AV1 可以在相同感知质量下节省约 30%–40% 的比特。但需要注意：

AVM 是实验参考实现，不是最终标准

最终 AV2 标准的性能可能有所不同

编码复杂度预计比 AV1 更高

AV2 的时间线

2020：AOM 启动 AV2 开发

2025：规范草案目标完成

2026–2028：预计发布最终标准

2028–2032：预计硬件解码器普及

2030–2035：预计主流流媒体平台采用

Part 4

视频编码标准演变路线图

时间线

1988  H.261 — 视频会议（ISDN）
1993  MPEG-1 — VCD，CD-ROM
1995  MPEG-2 / H.262 — DVD，数字电视
1995  H.263 — 低码率通信
1999  MPEG-4 Part 2 — 对象编码
2003  H.264/AVC — 蓝光，流媒体（统治至今）
2010  VP8 — WebM 项目（Google）
2013  H.265/HEVC — 4K，HDR
2013  VP9 — YouTube
2018  AV1 — 开源免版税
2020  H.266/VVC — 下一代 MPEG 标准
2025+ AV2 — AOM 下一代

标准对比

标准	年份	vs 上代	关键创新	版税
MPEG-1	1993	-	I/P/B 帧，运动补偿	已过期
MPEG-2	1995	+25%	隔行扫描，可变长编码	已过期
H.264	2003	+50%	多参考帧，CABAC，环路滤波	有（已过期）
HEVC	2013	+50%	CTU，35 模式帧内预测，SAO	有（复杂）
AV1	2018	+10-20%	Film Grain，灵活划分，免版税	无
VVC	2020	+40%	QTMT，ALF，MIP	有（复杂）
AV2	开发中	+30-40%	TCQ，CCTX，IST	无（预期）

实用视频编码器生态

同一视频编码标准有不同的实现，质量和速度差异显著：

标准	开源编码器	速度	质量	备注
H.264	x264	中（~150 fps 1080p）	高	事实标准，参数多
H.264	NVENC	极快	中低	NVIDIA 硬件编码
HEVC	x265	慢（~20 fps 1080p）	高	全手动参数，CRF 模式
VP9	libvpx	慢	高	Google 主推
AV1	libaom	最慢（~3 fps 1080p）	最高	AOM 官方参考实现
AV1	SVT-AV1	中（~30 fps 1080p）	接近 libaom	Intel 优化
AV1	NVENC (AV1)	快	中	RTX 40+ 系列硬件编码

实际应用中，通常选择预定义的速度预设（ultrafast → placebo）而不是手动调整每个参数。

标准竞争的经济学

视频编码标准的选择从来不只是技术问题。

JPEG2000 的失败不是因为技术上不如 JPEG，而是：计算复杂度比 JPEG 高 10 倍（EBCOT 的上下文建模开销）；在 2000 年代，硬盘和带宽都相对便宜，JPEG 的"足够好"占据了生态位；Adobe、浏览器厂商等既得利益者没有动力迁移。 HEVC 的困境是专利许可碎片化的问题：MPEG LA、Velos Media、HEVC Advance 三个专利池各自收费，导致总许可费不可预测。Google、Apple、Amazon 等公司联合成立 AOM，正是为了打破这个僵局。 AV1 的成功是"行业自救"的典型案例：当专利问题阻碍了行业整体利益时，大公司联手投入数亿美元研发免版税标准。虽然 AV1 的编码器质量花了 5 年才追上来，但生态一旦建立（Netflix、YouTube 开始转码），就形成了正反馈。

技术标准是技术、经济和政治三方面博弈的产物。理解这一点，有助于判断下一个标准（VVC、AV2）的未来走向。

标准选择的生态因素

技术性能不是选择视频编码标准的唯一因素。生态因素同样关键：

专利许可：HEVC 和 VVC 的复杂专利结构推动了 AV1/AV2 的采用

浏览器支持：Chrome 和 Firefox 不支持 HEVC，但支持 AV1

硬件支持：H.264 的硬件解码器几乎无处不在，AV1 正在快速普及

编码速度：H.264 编码最快，AV1/AV2 最慢

内容生态：Netflix、YouTube 已大规模部署 AV1

参考来源

ITU-T H.265 (2023). "High Efficiency Video Coding".
ISO/IEC 23008-2 (2023). "High Efficiency Video Coding".
AOM (2018). "AV1 Bitstream & Decoding Process Specification".
Norkin, A. (2025). "AV2 Video Codec Architecture". QoMEX 2025.
AOMedia (2024). "AOMedia Announces Year-End Launch of AV2".
Grois, D., et al. (2013). "Performance Comparison of H.265/MPEG-HEVC, VP9, and H.264/MPEG-AVC Encoders". PCS 2013.
Ohm, J., et al. (2012). "Comparison of the Coding Efficiency of Video Coding Standards—Including HEVC". IEEE TCSVT, 22(12).
Netflix TechBlog (2024). "AV1 Film Grain Synthesis at Netflix Scale".

系列导航

本篇是系列的第六篇。下一篇将作为系列的收官，讲解机器学习在图像/视频压缩中的应用现状，包括端到端学习式编解码器、神经网络增强的传统编码器等前沿方向。

上一篇：视频压缩基础 — 从 MPEG-1 到 H.264

下一篇：机器学习在图像/视频压缩中的应用现状