ESC
输入关键词搜索文章
目录

H.265/HEVC、AV1 与下一代视频编码

传统图像与视频压缩技术全景 · 第六篇
从 HEVC 到 AV2,视频编码标准的三次跃迁
7系列文章
6本篇:HEVC/AV1/AV2
引言
视频编码的三代标准

H.264/AVC 在 2003 年发布后迅速成为视频编码的事实标准。但随着 4K/8K 分辨率、HDR 内容、高帧率视频的兴起,H.264 的压缩效率开始力不从心。这催生了三代新的视频编码标准:

  • H.265/HEVC(2013):MPEG/ITU-T 的正统继承者,压缩效率比 H.264 提升 50%
  • AV1(2018):Alliance for Open Media 的开源替代,压缩效率比 H.264 提升 50%–60%
  • AV2(开发中):AV1 的下一代,目标比 AV1 再提升 30%–40%

本篇将系统拆解这三代标准的技术演进。

Part 1
H.265/HEVC:编码树的革命

HEVC(High Efficiency Video Coding)于 2013 年由 JCT-VC(Joint Collaborative Team on Video Coding)发布。它在 H.264 的架构基础上进行了全面升级。

核心改进一:编码树单元(CTU)

H.264 使用固定的 16×16 宏块。HEVC 引入了编码树单元(Coding Tree Unit, CTU),最大可达 64×64。

CTU 通过四叉树递归划分为编码单元(CU):

64×64 CTU
  ├── 32×32 CU
  │     ├── 16×16 CU
  │     │     ├── 8×8 CU
  │     │     └── 8×8 CU
  │     └── 16×16 CU
  └── 32×32 CU
        └── 16×16 CU
              ├── 8×8 CU
              ├── 8×8 CU
              └── 8×8 CU

CTU 的优势:对于大面积平坦区域(如天空),一个 64×64 的 CU 可以用一组编码参数表示,而 H.264 需要 16 个 16×16 宏块,每个都携带独立的头信息。

核心改进二:35 种帧内预测模式

H.264 的 4×4 帧内预测有 9 种模式。HEVC 将其扩展到 35 种

  • 1 种 DC 模式
  • 1 种 Planar 模式(平面预测,适合平滑渐变区域)
  • 33 种角度预测模式,覆盖从 -135° 到 +135° 的方向范围

33 种角度模式以约 4.5° 的间隔均匀分布在半圆上。更多的预测角度意味着更精确的方向性预测,对于包含大量斜线和曲线的图像(如建筑、文字)尤其有效。

核心改进三:变换与量化

HEVC 支持多种变换块大小:

变换大小支持的变换类型
4×4DCT, DST-VII
8×8 到 32×32DCT
非方形(4×8, 8×4 等)DCT

DST-VII(离散正弦变换)是 HEVC 的新引入,用于 4×4 帧内预测残差块。研究表明,帧内预测残差的统计特性更适合正弦基函数,使用 DST-VII 比 DCT 可以获得 1%–3% 的压缩增益。

核心改进四:环路滤波

HEVC 在 H.264 的去块滤波基础上增加了 SAO(Sample Adaptive Offset)

SAO 对去块滤波后的像素进行分类,对每个类别施加一个偏移量(offset)。SAO 有两种模式:

1. Edge Offset(EO):根据像素与邻居的大小关系分类(5 种边缘方向模板)

2. Band Offset(BO):根据像素值所在的亮度区间分类(16 个带)

SAO 可以恢复量化过程中损失的 1–2 dB PSNR 质量,特别有助于减少平坦区域的带状伪影(banding artifacts)。

核心改进五:并行处理

HEVC 引入了多种并行处理工具:

  • Wavefront Parallel Processing(WPP):将每行 CTU 分成独立的编码线程
  • Tiles:将帧分成矩形区域,可以独立编码和解码
  • Slice/VP(Viewpoint):支持多 slice 并行

这些工具使得 HEVC 编码器可以充分利用多核处理器的并行能力。

HEVC 的性能

相比 H.264,HEVC 在相同视觉质量下可以节省约 50% 的比特:

分辨率H.264 码率H.265 码率节省
720p3,000 kbps1,500 kbps50%
1080p5,000 kbps2,500 kbps50%
4K20,000 kbps10,000 kbps50%
HEVC 的专利困境

HEVC 的最大问题是专利许可。它涉及多个专利池(MPEG LA、Velos Media、HEVC Advance),许可费高昂且结构复杂。这导致:

  • Chrome 和 Firefox 不支持 HEVC 播放
  • 开源实现(如 x265)受到许可限制
  • 推动了 AV1 等免版税替代方案的发展
Part 2
AV1:开源免版税的挑战者

AV1 由 Alliance for Open Media(AOM)于 2018 年发布。AOM 的创始成员包括 Google、Apple、Netflix、Amazon、Microsoft、Meta、Cisco 和 Intel——这些公司有强烈的动机推动一个免版税的视频编码标准。

超级块与灵活划分

AV1 使用 128×128 的超级块(Superblock),支持多种划分模式:

  • 四叉树划分:递归地将块分成 4 个等大子块
  • 水平二叉划分:将块水平分成两半
  • 垂直二叉划分:将块垂直分成两半
  • T 型划分:将块分成 3 个子块(T 形状)

最小编码块大小为 4×4。这种灵活的划分比 HEVC 的纯四叉树更加高效,特别是在处理非方形的运动区域时。

帧内预测

AV1 提供了 61 种帧内预测模式(5 种非方向 + 56 种方向):

  • 非方向模式(5 种):DC、Vertical、Horizontal、Smooth H、Smooth V
  • 方向模式(56 种):8 个主方向 × 7 个角度插值

此外,AV1 支持帧内预测的滤波:对参考像素进行可选的高通/低通滤波,以提高预测质量。

变换工具

AV1 支持多种变换类型的组合:

变换全称特点
DCTDiscrete Cosine Transform标准变换
ADSTAsymmetric DST适合边缘信号
Identity无变换直接量化
Flip DCT旋转 DCTDCT 的旋转版本

AV1 允许在同一块的不同方向使用不同的变换(称为复合变换选择),这种灵活性是其他编码器不具备的。

Film Grain 合成

AV1 的标志性工具之一。编码流程:

1. 编码器分析原始帧中的胶片颗粒特征

2. 估计颗粒模型参数(粒度、幅度、空间自相关)

3. 将干净图像编码到码流中

4. 码流中携带颗粒参数

5. 解码器在解码后的干净图像上合成颗粒

Netflix 报告称,Film Grain 合成对胶片质感内容可以节省 20%–40% 的比特,同时保持甚至提升视觉质量。

AV1 的压缩性能

AV1 在相同质量下比 H.264 节省约 50%–60% 的比特,比 HEVC 节省约 10%–20%。但编码复杂度也显著更高:

编码器1080p 编码速度相对质量
x264 (H.264)120–180 fps基准
x265 (HEVC)15–30 fps+50% 效率
libaom (AV1)1–5 fps+50%–60% 效率
SVT-AV115–40 fps接近 libaom

SVT-AV1 是 Intel 开发的高速 AV1 编码器,通过并行化和算法优化将编码速度提升到实用水平。

Part 3
AV2:下一代视频编码

AV2 由 AOM 于 2020 年开始开发,目标是在 AV1 的基础上再提升 30%–40% 的压缩效率。目前仍处于实验阶段(使用 AVM,AOM Video Model 作为参考实现)。

AV2 的关键新技术
变换与熵编码

AV1 使用单一的变换类型。AV2 引入了多种新变换:

  • IST(Integer Sine Transform):对特定残差模式更高效
  • TCQ(Trellis Coded Quantization):网格编码量化,比标量量化更接近率失真最优
  • ATC(Adaptive Transform Coding):自适应变换编码
  • CCTX(Cross-Component Transform Coding):跨分量变换,利用亮度和色度之间的相关性
扩展的块划分

AV2 在 AV1 的四叉树+二叉树基础上增加了更多划分模式:

  • 三叉划分(将块分成 3 等分)
  • 更灵活的非方形划分
  • 支持更大的变换块
改进的 Film Grain 合成

AV2 的 Film Grain 合成支持更灵活的块大小配置(AV1 固定为 32×32 块 + 64×64 模板),允许对不同区域使用不同粒度的颗粒模型。

空间和体积视频支持

AV2 内置了对空间视频(Spatial Video)和体积视频(Volumetric Video)的支持,为 AR/VR 应用做准备。

AV2 的压缩性能

根据 AVM 实验结果,AV2 相比 AV1 可以在相同感知质量下节省约 30%–40% 的比特。但需要注意:

  • AVM 是实验参考实现,不是最终标准
  • 最终 AV2 标准的性能可能有所不同
  • 编码复杂度预计比 AV1 更高
AV2 的时间线
  • 2020:AOM 启动 AV2 开发
  • 2025:规范草案目标完成
  • 2026–2028:预计发布最终标准
  • 2028–2032:预计硬件解码器普及
  • 2030–2035:预计主流流媒体平台采用
Part 4
视频编码标准演变路线图
时间线
1988  H.261 — 视频会议(ISDN)
1993  MPEG-1 — VCD,CD-ROM
1995  MPEG-2 / H.262 — DVD,数字电视
1995  H.263 — 低码率通信
1999  MPEG-4 Part 2 — 对象编码
2003  H.264/AVC — 蓝光,流媒体(统治至今)
2010  VP8 — WebM 项目(Google)
2013  H.265/HEVC — 4K,HDR
2013  VP9 — YouTube
2018  AV1 — 开源免版税
2020  H.266/VVC — 下一代 MPEG 标准
2025+ AV2 — AOM 下一代
标准对比
标准年份vs 上代关键创新版税
MPEG-11993-I/P/B 帧,运动补偿已过期
MPEG-21995+25%隔行扫描,可变长编码已过期
H.2642003+50%多参考帧,CABAC,环路滤波有(已过期)
HEVC2013+50%CTU,35 模式帧内预测,SAO有(复杂)
AV12018+10-20%Film Grain,灵活划分,免版税
VVC2020+40%QTMT,ALF,MIP有(复杂)
AV2开发中+30-40%TCQ,CCTX,IST无(预期)
实用视频编码器生态

同一视频编码标准有不同的实现,质量和速度差异显著:

标准开源编码器速度质量备注
H.264x264中(~150 fps 1080p)事实标准,参数多
H.264NVENC极快中低NVIDIA 硬件编码
HEVCx265慢(~20 fps 1080p)全手动参数,CRF 模式
VP9libvpxGoogle 主推
AV1libaom最慢(~3 fps 1080p)最高AOM 官方参考实现
AV1SVT-AV1中(~30 fps 1080p)接近 libaomIntel 优化
AV1NVENC (AV1)RTX 40+ 系列硬件编码

实际应用中,通常选择预定义的速度预设(ultrafast → placebo)而不是手动调整每个参数。

标准竞争的经济学

视频编码标准的选择从来不只是技术问题。

JPEG2000 的失败不是因为技术上不如 JPEG,而是:计算复杂度比 JPEG 高 10 倍(EBCOT 的上下文建模开销);在 2000 年代,硬盘和带宽都相对便宜,JPEG 的"足够好"占据了生态位;Adobe、浏览器厂商等既得利益者没有动力迁移。 HEVC 的困境是专利许可碎片化的问题:MPEG LA、Velos Media、HEVC Advance 三个专利池各自收费,导致总许可费不可预测。Google、Apple、Amazon 等公司联合成立 AOM,正是为了打破这个僵局。 AV1 的成功是"行业自救"的典型案例:当专利问题阻碍了行业整体利益时,大公司联手投入数亿美元研发免版税标准。虽然 AV1 的编码器质量花了 5 年才追上来,但生态一旦建立(Netflix、YouTube 开始转码),就形成了正反馈。

技术标准是技术、经济和政治三方面博弈的产物。理解这一点,有助于判断下一个标准(VVC、AV2)的未来走向。

标准选择的生态因素

技术性能不是选择视频编码标准的唯一因素。生态因素同样关键:

  • 专利许可:HEVC 和 VVC 的复杂专利结构推动了 AV1/AV2 的采用
  • 浏览器支持:Chrome 和 Firefox 不支持 HEVC,但支持 AV1
  • 硬件支持:H.264 的硬件解码器几乎无处不在,AV1 正在快速普及
  • 编码速度:H.264 编码最快,AV1/AV2 最慢
  • 内容生态:Netflix、YouTube 已大规模部署 AV1

参考来源

  • ITU-T H.265 (2023). "High Efficiency Video Coding".
  • ISO/IEC 23008-2 (2023). "High Efficiency Video Coding".
  • AOM (2018). "AV1 Bitstream & Decoding Process Specification".
  • Norkin, A. (2025). "AV2 Video Codec Architecture". QoMEX 2025.
  • AOMedia (2024). "AOMedia Announces Year-End Launch of AV2".
  • Grois, D., et al. (2013). "Performance Comparison of H.265/MPEG-HEVC, VP9, and H.264/MPEG-AVC Encoders". PCS 2013.
  • Ohm, J., et al. (2012). "Comparison of the Coding Efficiency of Video Coding Standards—Including HEVC". IEEE TCSVT, 22(12).
  • Netflix TechBlog (2024). "AV1 Film Grain Synthesis at Netflix Scale".
系列导航
下一篇

本篇是系列的第六篇。下一篇将作为系列的收官,讲解机器学习在图像/视频压缩中的应用现状,包括端到端学习式编解码器、神经网络增强的传统编码器等前沿方向。

  • 下一篇:机器学习在图像/视频压缩中的应用现状