数字人系列总览：从唇形同步到实时交互体

2026/06/05 10:18:00·2026/06/18 11:30:00

数字人 Talking Head Lip Sync Real Time AI Survey WebRTC

系列总纲

关于这个系列

这个系列想回答一个工程问题：给定一张人像照片、一段语音或一个固定角色资产，离一个真正能商用的实时数字人还有多远？它不只讲单个模型怎么工作，而是把"任务边界 → 技术路线 → 代表论文 → 开源工程 → 产业选型"串成一条完整的认知链。

阅读顺序分成五层：先读总览与 Survey，建立任务 taxonomy 和技术路线 taxonomy；再读专题综述，理解换嘴、运动空间、3DGS/NeRF、扩散基模、整帧/全身、实时流式、算力选型和 Benchmark；然后按路线读论文精读；接着看源码工程如何把模型拼成系统；最后用产业图谱把技术栈、公司和商业位置连起来。

📚 章节目录

排序：

S00数字人系列总览：从唇形同步到实时交互体✓ Hub
S00.5数字人研究准备：正式头脑风暴前要看清什么✓ 准备
S01实时数字人生成 Survey：从唇部重绘到动作空间扩散✓ Survey
S02换嘴与视频配音路线，从 Wav2Lip 到 MuseTalk✓ 专题
S03运动空间路线，从 SadTalker 到 VASA-1 与 Ditto✓ 专题
S043DGS 与 NeRF 数字人路线，从专人建模到实时渲染✓ 专题
S05扩散基模与整帧数字人路线✓ 专题
S06整帧与全身生成，从 OmniAvatar 到 LongCat-Video-Avatar✓ 专题
S07实时流式与蒸馏，从 LiveAvatar 到 Self-Forcing✓ 专题
S08Avatar 类型数字人，从 Talking Head 到全身可渲染资产✓ Survey
S09评测指标、数据集、训练算力与产品选型✓ 专题
S10实时语音 AI 与数字人产业图谱✓ 产业
S11不同方案的实际效果演示✓ Demo
P01Wav2Lip：用唇形同步专家把任意视频精准对口型✓ 论文
P02MuseTalk：实时视频配音里的 latent inpainting 路线✓ 论文
P03InfiniteTalk：稀疏帧配音与无限长音频驱动生成✓ 论文
P04SadTalker：用 3D 运动系数驱动单图说话人✓ 论文
P05VASA-1：512×512 实时生成的整体面部动力学✓ 论文
P06Ditto：把扩散模型搬进运动空间的实时可控数字人✓ 论文
P07SentiAvatar：让 3D 数字人会说、会动、会表达✓ 论文
P08DiffSHEG：扩散模型如何同时生成表情与手势✓ 论文
P09EchoMimic：音频+可编辑landmark双驱动让数字人说话更自然✓ 论文
P10Live Avatar：14B 扩散模型的实时流式无限长数字人✓ 论文
P11EGSTalker：把 3D Gaussian 数字人推向实时音频驱动✓ 论文
P12EmoTaG：用 FLAME-Gaussian 和情绪蒸馏做 5 秒个性化说话头✓ 论文
P13LivePortrait：用隐式关键点把肖像动画做快、做稳、做可控✓ 论文
P14AniPortrait：从音频到 3D 中间表示再到扩散肖像动画✓ 论文
P15Hallo：用分层音频视觉对齐生成高质量说话肖像✓ 论文
P16Teller：用自回归运动 token 做实时流式肖像动画✓ 论文
P17FLAP：用 3D head 条件把音频肖像动画做成可控生成✓ 论文
P18ChatAnyone：把 talking head 推到实时上半身互动✓ 论文
P19EMO2：把手当作 End-Effector 的音频驱动手势生成✓ 论文
P20OmniAvatar：把音频注入视频 latent 的全身数字人✓ 论文
P21One Shot, One Talk：从单张照片造可渲染全身 Avatar✓ 论文
P22SoulX-FlashHead：用 Oracle 蒸馏把 1.3B DiT 做成 96 FPS 流式数字人✓ 论文
P23LAM：单图生成可动画 Gaussian 头像的纯 3D 实时管线✓ 论文
P24UIKA：任意数量 Pose-Free 图像的前馈式通用头部头像✓ 论文
P25Flow-Guided One-Shot Talking Face：用稠密光流替代稀疏关键点的突破✓ 论文
P26ARTalk：实时语音驱动 3D 头部动画的多尺度自回归革命✓ 论文
P27DSL-FIQA：双集合退化学习与关键点引导的人脸图像质量评估✓ 论文
P28UniLS：首个端到端音频驱动的统一说-听数字人✓ 论文
P29MEAD：大规模情绪音视频数据集如何推动 Talking Face 从动嘴到传情✓ 数据集
E01CyberVerse：把论文拼成一个能对话的实时数字人✓ 工程
E02CyberVerse 实验：FlashHead Lite + wav2vec2 的端到端耗时拆解✓ 工程
E03OpenAvatarChat 源码：LiteAvatar 实时数字人的模块化设计与 WebRTC 部署✓ 工程
E04实时数字人模型推理 Benchmark 汇总✓ 工程
E05Ditto 源码：把 Talking Head 做成实时流水线✓ 工程
E06Ultralight-Digital-Human：一个能塞进手机的数字人✓ 工程
E07InfiniteTalk 源码：站在视频大模型肩上的无限长数字人✓ 工程
E08LiteAvatar 源码：纯 CPU 实时 2D 数字人驱动引擎✓ 工程
E09HDTF 源码：流引导的单样本高分辨率说话人脸生成✓ 工程

文章关系图

49 篇文章 · 142 条连接

🗺️ 阅读路径建议

路径一：总览主线（推荐优先）

S00 → S01 → S02 → S03 → S04 → S05 → S06 → S07 → S08 → S09 → S10 → S11。先用 Hub 和 Survey 建立术语边界、任务 taxonomy 与技术路线 taxonomy，再沿"局部换嘴 → 运动空间 → 3DGS/NeRF → 扩散基模 → 整帧/全身 → 实时流式 → Avatar 类型数字人 → 评测指标、算力与选型 → 产业图谱 → Demo 效果对比"读完主线。

路径二：按任务读论文

换嘴/配音读 P01 → P02 → P03；早期单图 talking head 读 P04 → P05 → P06；3D 绑定与显式可渲染表示读 P07、P09 和 S04；实时/长时基模读 P08。Portrait Animation / Talking Head 读 P11 → P12 → P13 → P14 → P15：LivePortrait 对应视频驱动隐式关键点，AniPortrait / Hallo 对应音频扩散，Teller 对应实时流式 motion token，FLAP 对应 3D head 条件可控扩散。

路径三：Portrait Animation / Talking Head 主线

P11 → P12 → P13 → P14 → P15。这五篇都属于 Talking Head 大类，更精确地说是 Portrait Animation / Audio-driven Portrait 分支：从 LivePortrait 的视频驱动隐式关键点，到 AniPortrait / Hallo / FLAP 的音频条件扩散，再到 Teller 的实时流式自回归运动 token。

路径四：工程落地视角

S09 → E01 → E02 → E03 → E04。先用评测指标、训练资源、推理资源与 Benchmark 建立成本和实验坐标，再看 CyberVerse 的端到端系统、Ditto 的实时流水线、Ultralight 的轻量端侧方案和 InfiniteTalk 的重型视频大模型方案。

路径五：产业视角

S01 → S08 → S09 → S10。先理解数字人技术边界和 Avatar 任务分化，再用评测指标、训练资源和 Benchmark 口径校准产品判断，最后用产业图谱把语音模型、推理框架、数字人视频、Agent 平台、云与算力五层串起来。

路径六：源码 + 论文双修

Ditto 走 P06 → E02，InfiniteTalk 走 P03 → E04。先读论文理解表示空间、训练目标和实时性声明，再读源码看数据预处理、推理入口、模型权重、滑窗/队列和部署约束如何落地。