数字人系列总览
从唇形同步到实时交互体
阅读路径 · 任务分类 · 技术路线 · 论文精读 · 工程落地
系列总纲
关于这个系列
这个系列想回答一个工程问题:给定一张人像照片、一段语音或一个固定角色资产,离一个真正能商用的实时数字人还有多远?它不只讲单个模型怎么工作,而是把"任务边界 → 技术路线 → 代表论文 → 开源工程 → 产业选型"串成一条完整的认知链。
阅读顺序分成五层:先读总览与 Survey,建立任务 taxonomy 和技术路线 taxonomy;再读专题综述,理解换嘴、运动空间、3DGS/NeRF、扩散基模、整帧/全身、实时流式、算力选型和 Benchmark;然后按路线读论文精读;接着看源码工程如何把模型拼成系统;最后用产业图谱把技术栈、公司和商业位置连起来。
📚 章节目录
排序:
- S00数字人系列总览:从唇形同步到实时交互体✓ Hub
- S00.5数字人研究准备:正式头脑风暴前要看清什么✓ 准备
- S01实时数字人生成 Survey:从唇部重绘到动作空间扩散✓ Survey
- S02换嘴与视频配音路线,从 Wav2Lip 到 MuseTalk✓ 专题
- S03运动空间路线,从 SadTalker 到 VASA-1 与 Ditto✓ 专题
- S043DGS 与 NeRF 数字人路线,从专人建模到实时渲染✓ 专题
- S05扩散基模与整帧数字人路线✓ 专题
- S06整帧与全身生成,从 OmniAvatar 到 LongCat-Video-Avatar✓ 专题
- S07实时流式与蒸馏,从 LiveAvatar 到 Self-Forcing✓ 专题
- S08Avatar 类型数字人,从 Talking Head 到全身可渲染资产✓ Survey
- S09评测指标、数据集、训练算力与产品选型✓ 专题
- S10实时语音 AI 与数字人产业图谱✓ 产业
- S11不同方案的实际效果演示✓ Demo
- P01Wav2Lip:用唇形同步专家把任意视频精准对口型✓ 论文
- P02MuseTalk:实时视频配音里的 latent inpainting 路线✓ 论文
- P03InfiniteTalk:稀疏帧配音与无限长音频驱动生成✓ 论文
- P04SadTalker:用 3D 运动系数驱动单图说话人✓ 论文
- P05VASA-1:512×512 实时生成的整体面部动力学✓ 论文
- P06Ditto:把扩散模型搬进运动空间的实时可控数字人✓ 论文
- P07SentiAvatar:让 3D 数字人会说、会动、会表达✓ 论文
- P08DiffSHEG:扩散模型如何同时生成表情与手势✓ 论文
- P09EchoMimic:音频+可编辑landmark双驱动让数字人说话更自然✓ 论文
- P10Live Avatar:14B 扩散模型的实时流式无限长数字人✓ 论文
- P11EGSTalker:把 3D Gaussian 数字人推向实时音频驱动✓ 论文
- P12EmoTaG:用 FLAME-Gaussian 和情绪蒸馏做 5 秒个性化说话头✓ 论文
- P13LivePortrait:用隐式关键点把肖像动画做快、做稳、做可控✓ 论文
- P14AniPortrait:从音频到 3D 中间表示再到扩散肖像动画✓ 论文
- P15Hallo:用分层音频视觉对齐生成高质量说话肖像✓ 论文
- P16Teller:用自回归运动 token 做实时流式肖像动画✓ 论文
- P17FLAP:用 3D head 条件把音频肖像动画做成可控生成✓ 论文
- P18ChatAnyone:把 talking head 推到实时上半身互动✓ 论文
- P19EMO2:把手当作 End-Effector 的音频驱动手势生成✓ 论文
- P20OmniAvatar:把音频注入视频 latent 的全身数字人✓ 论文
- P21One Shot, One Talk:从单张照片造可渲染全身 Avatar✓ 论文
- P22SoulX-FlashHead:用 Oracle 蒸馏把 1.3B DiT 做成 96 FPS 流式数字人✓ 论文
- P23LAM:单图生成可动画 Gaussian 头像的纯 3D 实时管线✓ 论文
- P24UIKA:任意数量 Pose-Free 图像的前馈式通用头部头像✓ 论文
- P25Flow-Guided One-Shot Talking Face:用稠密光流替代稀疏关键点的突破✓ 论文
- P26ARTalk:实时语音驱动 3D 头部动画的多尺度自回归革命✓ 论文
- P27DSL-FIQA:双集合退化学习与关键点引导的人脸图像质量评估✓ 论文
- P28UniLS:首个端到端音频驱动的统一说-听数字人✓ 论文
- P29MEAD:大规模情绪音视频数据集如何推动 Talking Face 从动嘴到传情✓ 数据集
- E01CyberVerse:把论文拼成一个能对话的实时数字人✓ 工程
- E02CyberVerse 实验:FlashHead Lite + wav2vec2 的端到端耗时拆解✓ 工程
- E03OpenAvatarChat 源码:LiteAvatar 实时数字人的模块化设计与 WebRTC 部署✓ 工程
- E04实时数字人模型推理 Benchmark 汇总✓ 工程
- E05Ditto 源码:把 Talking Head 做成实时流水线✓ 工程
- E06Ultralight-Digital-Human:一个能塞进手机的数字人✓ 工程
- E07InfiniteTalk 源码:站在视频大模型肩上的无限长数字人✓ 工程
- E08LiteAvatar 源码:纯 CPU 实时 2D 数字人驱动引擎✓ 工程
- E09HDTF 源码:流引导的单样本高分辨率说话人脸生成✓ 工程
文章关系图
49 篇文章 · 142 条连接
🗺️ 阅读路径建议
路径一:总览主线(推荐优先)
路径二:按任务读论文
路径三:Portrait Animation / Talking Head 主线
路径四:工程落地视角
路径五:产业视角
路径六:源码 + 论文双修