AI Infra 系列
现代 AI 系统的分层地图
从硬件到治理,理解支撑 AI 运行的完整基础设施
系列总纲
关于这个系列
AI Infra(AI Infrastructure)是支撑 AI 系统从数据接入、模型训练、模型部署、在线推理到观测治理全过程的底层技术与工程系统。本系列试图回答的不是“某个模型怎么工作”,而是“为什么今天的 AI 需要一套新的基础设施语言”。
系列先从推理 Infra 切入——这是当前创新最密集、也最能暴露系统矛盾的一层——再逐步扩展到训练、数据与平台治理,最后回到一张完整的 AI 基础设施地图。
📚 章节目录
排序:
- 01 AI Infra 是什么:为什么 AI 时代需要一套新的基础设施语言 ✓ 已完成
- 02 LLM 推理基础设施入门:从 prefill 和 decode 开始理解一切 ✓ 已完成
- 03 KV Cache、PagedAttention 与调度器:现代推理引擎到底在优化什么 ✓ 已完成
- 04 从 vLLM 到 SGLang:推理框架的设计分歧到底在哪里 ✓ 已完成
- 05 多模态推理为什么更难:以 SGLang Omni 为例看 multi-stage inference ✓ 已完成
- 06 训练 Infra:为什么训练大模型像在协调上千张 GPU 一起工作 ✓ 已完成
- 07 数据 Infra:为什么 AI 系统真正消耗的是数据供应链,而不只是 prompt ✓ 已完成
- 08 平台与治理:AI Infra 最终拼的是可控、可观测、可扩展 ✓ 已完成
文章关系图
15 篇文章 · 22 条连接
🗺️ 阅读路径建议
路径一:推理主线(推荐优先)
路径二:训练与数据
路径三:平台与运营视角
📚 参考来源
| 来源 | 类型 | 说明 |
|---|---|---|
| IBM Think | 官方定义 | AI infrastructure 企业级定义 |
| vLLM | 开源项目 | PagedAttention、推理吞吐优化 |
| SGLang / SGLang-Omni | 开源项目 | RadixAttention、multi-stage inference |
| DeepSpeed / ZeRO | 开源项目 | 分布式训练显存优化 |
| Megatron-LM | 开源项目 | 大规模 Transformer 模型并行 |
| NVIDIA NCCL | 系统库 | GPU 高性能集合通信 |
| CNCF / llm-d | 基金会项目 | Kubernetes-native AI serving |
| OpenTelemetry | 观测标准 | GenAI 可观测性语义约定 |
📋 待扩展专题
| 专题 | 状态 | 优先级 |
|---|---|---|
| AI Infra 开源版图索引 | 待整理 | 中 |
| 成本优化与 FinOps for AI | 待研究 | 中 |
| 边缘推理与端侧部署 | 待研究 | 低 |