AI Infra 系列

2026/06/02 09:36:00·2026/06/03 12:00:30

系列总纲

关于这个系列

AI Infra（AI Infrastructure）是支撑 AI 系统从数据接入、模型训练、模型部署、在线推理到观测治理全过程的底层技术与工程系统。本系列试图回答的不是“某个模型怎么工作”，而是“为什么今天的 AI 需要一套新的基础设施语言”。

系列先从推理 Infra 切入——这是当前创新最密集、也最能暴露系统矛盾的一层——再逐步扩展到训练、数据与平台治理，最后回到一张完整的 AI 基础设施地图。

📚 章节目录

排序：

15 篇文章 · 22 条连接

路径一：推理主线（推荐优先）

01 → 02 → 03 → 04 → 05。从总纲出发，先建立推理系统语言，再深入 KV cache 与调度器，比较 vLLM 和 SGLang 的设计取舍，最后以 SGLang Omni 的多模态案例收束。

路径二：训练与数据

01 → 06 → 07。在理解全景后，转向训练系统的分布式协同问题，再延伸到数据供应链与知识接入层。

路径三：平台与运营视角

01 → 08。如果你更关心 AI 系统的长期运营、可观测性和治理，可以直接跳到平台层。

来源	类型	说明
IBM Think	官方定义	AI infrastructure 企业级定义
vLLM	开源项目	PagedAttention、推理吞吐优化
SGLang / SGLang-Omni	开源项目	RadixAttention、multi-stage inference
DeepSpeed / ZeRO	开源项目	分布式训练显存优化
Megatron-LM	开源项目	大规模 Transformer 模型并行
NVIDIA NCCL	系统库	GPU 高性能集合通信
CNCF / llm-d	基金会项目	Kubernetes-native AI serving
OpenTelemetry	观测标准	GenAI 可观测性语义约定