H.265/HEVC、AV1 与下一代视频编码
H.264/AVC 在 2003 年发布后迅速成为视频编码的事实标准。但随着 4K/8K 分辨率、HDR 内容、高帧率视频的兴起,H.264 的压缩效率开始力不从心。这催生了三代新的视频编码标准:
- H.265/HEVC(2013):MPEG/ITU-T 的正统继承者,压缩效率比 H.264 提升 50%
- AV1(2018):Alliance for Open Media 的开源替代,压缩效率比 H.264 提升 50%–60%
- AV2(开发中):AV1 的下一代,目标比 AV1 再提升 30%–40%
本篇将系统拆解这三代标准的技术演进。
HEVC(High Efficiency Video Coding)于 2013 年由 JCT-VC(Joint Collaborative Team on Video Coding)发布。它在 H.264 的架构基础上进行了全面升级。
H.264 使用固定的 16×16 宏块。HEVC 引入了编码树单元(Coding Tree Unit, CTU),最大可达 64×64。
CTU 通过四叉树递归划分为编码单元(CU):
64×64 CTU
├── 32×32 CU
│ ├── 16×16 CU
│ │ ├── 8×8 CU
│ │ └── 8×8 CU
│ └── 16×16 CU
└── 32×32 CU
└── 16×16 CU
├── 8×8 CU
├── 8×8 CU
└── 8×8 CU
CTU 的优势:对于大面积平坦区域(如天空),一个 64×64 的 CU 可以用一组编码参数表示,而 H.264 需要 16 个 16×16 宏块,每个都携带独立的头信息。
H.264 的 4×4 帧内预测有 9 种模式。HEVC 将其扩展到 35 种:
- 1 种 DC 模式
- 1 种 Planar 模式(平面预测,适合平滑渐变区域)
- 33 种角度预测模式,覆盖从 -135° 到 +135° 的方向范围
33 种角度模式以约 4.5° 的间隔均匀分布在半圆上。更多的预测角度意味着更精确的方向性预测,对于包含大量斜线和曲线的图像(如建筑、文字)尤其有效。
HEVC 支持多种变换块大小:
| 变换大小 | 支持的变换类型 |
|---|---|
| 4×4 | DCT, DST-VII |
| 8×8 到 32×32 | DCT |
| 非方形(4×8, 8×4 等) | DCT |
DST-VII(离散正弦变换)是 HEVC 的新引入,用于 4×4 帧内预测残差块。研究表明,帧内预测残差的统计特性更适合正弦基函数,使用 DST-VII 比 DCT 可以获得 1%–3% 的压缩增益。
HEVC 在 H.264 的去块滤波基础上增加了 SAO(Sample Adaptive Offset):
SAO 对去块滤波后的像素进行分类,对每个类别施加一个偏移量(offset)。SAO 有两种模式:
1. Edge Offset(EO):根据像素与邻居的大小关系分类(5 种边缘方向模板)
2. Band Offset(BO):根据像素值所在的亮度区间分类(16 个带)
SAO 可以恢复量化过程中损失的 1–2 dB PSNR 质量,特别有助于减少平坦区域的带状伪影(banding artifacts)。
HEVC 引入了多种并行处理工具:
- Wavefront Parallel Processing(WPP):将每行 CTU 分成独立的编码线程
- Tiles:将帧分成矩形区域,可以独立编码和解码
- Slice/VP(Viewpoint):支持多 slice 并行
这些工具使得 HEVC 编码器可以充分利用多核处理器的并行能力。
相比 H.264,HEVC 在相同视觉质量下可以节省约 50% 的比特:
| 分辨率 | H.264 码率 | H.265 码率 | 节省 |
|---|---|---|---|
| 720p | 3,000 kbps | 1,500 kbps | 50% |
| 1080p | 5,000 kbps | 2,500 kbps | 50% |
| 4K | 20,000 kbps | 10,000 kbps | 50% |
HEVC 的最大问题是专利许可。它涉及多个专利池(MPEG LA、Velos Media、HEVC Advance),许可费高昂且结构复杂。这导致:
- Chrome 和 Firefox 不支持 HEVC 播放
- 开源实现(如 x265)受到许可限制
- 推动了 AV1 等免版税替代方案的发展
AV1 由 Alliance for Open Media(AOM)于 2018 年发布。AOM 的创始成员包括 Google、Apple、Netflix、Amazon、Microsoft、Meta、Cisco 和 Intel——这些公司有强烈的动机推动一个免版税的视频编码标准。
AV1 使用 128×128 的超级块(Superblock),支持多种划分模式:
- 四叉树划分:递归地将块分成 4 个等大子块
- 水平二叉划分:将块水平分成两半
- 垂直二叉划分:将块垂直分成两半
- T 型划分:将块分成 3 个子块(T 形状)
最小编码块大小为 4×4。这种灵活的划分比 HEVC 的纯四叉树更加高效,特别是在处理非方形的运动区域时。
AV1 提供了 61 种帧内预测模式(5 种非方向 + 56 种方向):
- 非方向模式(5 种):DC、Vertical、Horizontal、Smooth H、Smooth V
- 方向模式(56 种):8 个主方向 × 7 个角度插值
此外,AV1 支持帧内预测的滤波:对参考像素进行可选的高通/低通滤波,以提高预测质量。
AV1 支持多种变换类型的组合:
| 变换 | 全称 | 特点 |
|---|---|---|
| DCT | Discrete Cosine Transform | 标准变换 |
| ADST | Asymmetric DST | 适合边缘信号 |
| Identity | 无变换 | 直接量化 |
| Flip DCT | 旋转 DCT | DCT 的旋转版本 |
AV1 允许在同一块的不同方向使用不同的变换(称为复合变换选择),这种灵活性是其他编码器不具备的。
AV1 的标志性工具之一。编码流程:
1. 编码器分析原始帧中的胶片颗粒特征
2. 估计颗粒模型参数(粒度、幅度、空间自相关)
3. 将干净图像编码到码流中
4. 码流中携带颗粒参数
5. 解码器在解码后的干净图像上合成颗粒
Netflix 报告称,Film Grain 合成对胶片质感内容可以节省 20%–40% 的比特,同时保持甚至提升视觉质量。
AV1 在相同质量下比 H.264 节省约 50%–60% 的比特,比 HEVC 节省约 10%–20%。但编码复杂度也显著更高:
| 编码器 | 1080p 编码速度 | 相对质量 |
|---|---|---|
| x264 (H.264) | 120–180 fps | 基准 |
| x265 (HEVC) | 15–30 fps | +50% 效率 |
| libaom (AV1) | 1–5 fps | +50%–60% 效率 |
| SVT-AV1 | 15–40 fps | 接近 libaom |
SVT-AV1 是 Intel 开发的高速 AV1 编码器,通过并行化和算法优化将编码速度提升到实用水平。
AV2 由 AOM 于 2020 年开始开发,目标是在 AV1 的基础上再提升 30%–40% 的压缩效率。目前仍处于实验阶段(使用 AVM,AOM Video Model 作为参考实现)。
AV1 使用单一的变换类型。AV2 引入了多种新变换:
- IST(Integer Sine Transform):对特定残差模式更高效
- TCQ(Trellis Coded Quantization):网格编码量化,比标量量化更接近率失真最优
- ATC(Adaptive Transform Coding):自适应变换编码
- CCTX(Cross-Component Transform Coding):跨分量变换,利用亮度和色度之间的相关性
AV2 在 AV1 的四叉树+二叉树基础上增加了更多划分模式:
- 三叉划分(将块分成 3 等分)
- 更灵活的非方形划分
- 支持更大的变换块
AV2 的 Film Grain 合成支持更灵活的块大小配置(AV1 固定为 32×32 块 + 64×64 模板),允许对不同区域使用不同粒度的颗粒模型。
空间和体积视频支持AV2 内置了对空间视频(Spatial Video)和体积视频(Volumetric Video)的支持,为 AR/VR 应用做准备。
根据 AVM 实验结果,AV2 相比 AV1 可以在相同感知质量下节省约 30%–40% 的比特。但需要注意:
- AVM 是实验参考实现,不是最终标准
- 最终 AV2 标准的性能可能有所不同
- 编码复杂度预计比 AV1 更高
- 2020:AOM 启动 AV2 开发
- 2025:规范草案目标完成
- 2026–2028:预计发布最终标准
- 2028–2032:预计硬件解码器普及
- 2030–2035:预计主流流媒体平台采用
1988 H.261 — 视频会议(ISDN)
1993 MPEG-1 — VCD,CD-ROM
1995 MPEG-2 / H.262 — DVD,数字电视
1995 H.263 — 低码率通信
1999 MPEG-4 Part 2 — 对象编码
2003 H.264/AVC — 蓝光,流媒体(统治至今)
2010 VP8 — WebM 项目(Google)
2013 H.265/HEVC — 4K,HDR
2013 VP9 — YouTube
2018 AV1 — 开源免版税
2020 H.266/VVC — 下一代 MPEG 标准
2025+ AV2 — AOM 下一代
| 标准 | 年份 | vs 上代 | 关键创新 | 版税 |
|---|---|---|---|---|
| MPEG-1 | 1993 | - | I/P/B 帧,运动补偿 | 已过期 |
| MPEG-2 | 1995 | +25% | 隔行扫描,可变长编码 | 已过期 |
| H.264 | 2003 | +50% | 多参考帧,CABAC,环路滤波 | 有(已过期) |
| HEVC | 2013 | +50% | CTU,35 模式帧内预测,SAO | 有(复杂) |
| AV1 | 2018 | +10-20% | Film Grain,灵活划分,免版税 | 无 |
| VVC | 2020 | +40% | QTMT,ALF,MIP | 有(复杂) |
| AV2 | 开发中 | +30-40% | TCQ,CCTX,IST | 无(预期) |
同一视频编码标准有不同的实现,质量和速度差异显著:
| 标准 | 开源编码器 | 速度 | 质量 | 备注 |
|---|---|---|---|---|
| H.264 | x264 | 中(~150 fps 1080p) | 高 | 事实标准,参数多 |
| H.264 | NVENC | 极快 | 中低 | NVIDIA 硬件编码 |
| HEVC | x265 | 慢(~20 fps 1080p) | 高 | 全手动参数,CRF 模式 |
| VP9 | libvpx | 慢 | 高 | Google 主推 |
| AV1 | libaom | 最慢(~3 fps 1080p) | 最高 | AOM 官方参考实现 |
| AV1 | SVT-AV1 | 中(~30 fps 1080p) | 接近 libaom | Intel 优化 |
| AV1 | NVENC (AV1) | 快 | 中 | RTX 40+ 系列硬件编码 |
实际应用中,通常选择预定义的速度预设(ultrafast → placebo)而不是手动调整每个参数。
视频编码标准的选择从来不只是技术问题。
JPEG2000 的失败不是因为技术上不如 JPEG,而是:计算复杂度比 JPEG 高 10 倍(EBCOT 的上下文建模开销);在 2000 年代,硬盘和带宽都相对便宜,JPEG 的"足够好"占据了生态位;Adobe、浏览器厂商等既得利益者没有动力迁移。 HEVC 的困境是专利许可碎片化的问题:MPEG LA、Velos Media、HEVC Advance 三个专利池各自收费,导致总许可费不可预测。Google、Apple、Amazon 等公司联合成立 AOM,正是为了打破这个僵局。 AV1 的成功是"行业自救"的典型案例:当专利问题阻碍了行业整体利益时,大公司联手投入数亿美元研发免版税标准。虽然 AV1 的编码器质量花了 5 年才追上来,但生态一旦建立(Netflix、YouTube 开始转码),就形成了正反馈。技术标准是技术、经济和政治三方面博弈的产物。理解这一点,有助于判断下一个标准(VVC、AV2)的未来走向。
技术性能不是选择视频编码标准的唯一因素。生态因素同样关键:
- 专利许可:HEVC 和 VVC 的复杂专利结构推动了 AV1/AV2 的采用
- 浏览器支持:Chrome 和 Firefox 不支持 HEVC,但支持 AV1
- 硬件支持:H.264 的硬件解码器几乎无处不在,AV1 正在快速普及
- 编码速度:H.264 编码最快,AV1/AV2 最慢
- 内容生态:Netflix、YouTube 已大规模部署 AV1
参考来源
- ITU-T H.265 (2023). "High Efficiency Video Coding".
- ISO/IEC 23008-2 (2023). "High Efficiency Video Coding".
- AOM (2018). "AV1 Bitstream & Decoding Process Specification".
- Norkin, A. (2025). "AV2 Video Codec Architecture". QoMEX 2025.
- AOMedia (2024). "AOMedia Announces Year-End Launch of AV2".
- Grois, D., et al. (2013). "Performance Comparison of H.265/MPEG-HEVC, VP9, and H.264/MPEG-AVC Encoders". PCS 2013.
- Ohm, J., et al. (2012). "Comparison of the Coding Efficiency of Video Coding Standards—Including HEVC". IEEE TCSVT, 22(12).
- Netflix TechBlog (2024). "AV1 Film Grain Synthesis at Netflix Scale".
本篇是系列的第六篇。下一篇将作为系列的收官,讲解机器学习在图像/视频压缩中的应用现状,包括端到端学习式编解码器、神经网络增强的传统编码器等前沿方向。
- 下一篇:机器学习在图像/视频压缩中的应用现状