ESC
输入关键词搜索文章
目录

数字人系列总览

从唇形同步到实时交互体
阅读路径 · 任务分类 · 技术路线 · 论文精读 · 工程落地
系列总纲
关于这个系列

这个系列想回答一个工程问题:给定一张人像照片、一段语音或一个固定角色资产,离一个真正能商用的实时数字人还有多远?它不只讲单个模型怎么工作,而是把"任务边界 → 技术路线 → 代表论文 → 开源工程 → 产业选型"串成一条完整的认知链。

阅读顺序分成五层:先读总览与 Survey,建立任务 taxonomy 和技术路线 taxonomy;再读专题综述,理解换嘴、运动空间、3DGS/NeRF、扩散基模、整帧/全身、实时流式、算力选型和 Benchmark;然后按路线读论文精读;接着看源码工程如何把模型拼成系统;最后用产业图谱把技术栈、公司和商业位置连起来。

📚 章节目录
排序:

文章关系图

49 篇文章 · 142 条连接

🗺️ 阅读路径建议

路径一:总览主线(推荐优先)

S00 → S01 → S02 → S03 → S04 → S05 → S06 → S07 → S08 → S09 → S10 → S11。先用 Hub 和 Survey 建立术语边界、任务 taxonomy 与技术路线 taxonomy,再沿"局部换嘴 → 运动空间 → 3DGS/NeRF → 扩散基模 → 整帧/全身 → 实时流式 → Avatar 类型数字人 → 评测指标、算力与选型 → 产业图谱 → Demo 效果对比"读完主线。

路径二:按任务读论文

换嘴/配音读 P01 → P02 → P03;早期单图 talking head 读 P04 → P05 → P06;3D 绑定与显式可渲染表示读 P07、P09 和 S04;实时/长时基模读 P08。Portrait Animation / Talking Head 读 P11 → P12 → P13 → P14 → P15:LivePortrait 对应视频驱动隐式关键点,AniPortrait / Hallo 对应音频扩散,Teller 对应实时流式 motion token,FLAP 对应 3D head 条件可控扩散。

路径三:Portrait Animation / Talking Head 主线

P11 → P12 → P13 → P14 → P15。这五篇都属于 Talking Head 大类,更精确地说是 Portrait Animation / Audio-driven Portrait 分支:从 LivePortrait 的视频驱动隐式关键点,到 AniPortrait / Hallo / FLAP 的音频条件扩散,再到 Teller 的实时流式自回归运动 token。

路径四:工程落地视角

S09 → E01 → E02 → E03 → E04。先用评测指标、训练资源、推理资源与 Benchmark 建立成本和实验坐标,再看 CyberVerse 的端到端系统、Ditto 的实时流水线、Ultralight 的轻量端侧方案和 InfiniteTalk 的重型视频大模型方案。

路径五:产业视角

S01 → S08 → S09 → S10。先理解数字人技术边界和 Avatar 任务分化,再用评测指标、训练资源和 Benchmark 口径校准产品判断,最后用产业图谱把语音模型、推理框架、数字人视频、Agent 平台、云与算力五层串起来。

路径六:源码 + 论文双修

Ditto 走 P06 → E02,InfiniteTalk 走 P03 → E04。先读论文理解表示空间、训练目标和实时性声明,再读源码看数据预处理、推理入口、模型权重、滑窗/队列和部署约束如何落地。