ESC
输入关键词搜索文章
目录

AI Infra 是什么?

从云基础设施到模型感知系统的分层地图
训练、推理、数据、平台与治理——现代 AI 系统真正运行的底座
6核心层次
4关键边界概念
2主战场:训练 / 推理
系列一
为什么今天大家都在谈 AI Infra

如果说过去十年的 AI 竞争主要体现在模型、数据和算法上,那么大模型时代的一个显著变化是:基础设施本身开始成为决定系统能力与成本结构的关键变量。今天大家讨论的不只是模型有多大、效果有多好,还包括推理吞吐、KV cache、训练通信、调度策略、可观测性与多租户治理。模型仍然是主角,但把模型稳定、高效、可控地运行起来的那套系统,正在成为另一条同样关键的战线 #CNCF-llm-d-2026 #OpenTelemetry-2026

这种变化并不难理解。早期的机器学习系统往往还能被看作“在通用计算平台上运行的一个应用”,而今天的大模型系统越来越像一种有自己物理约束、性能瓶颈和运维规律的特殊工作负载。训练侧会被显存容量、跨卡通信和容错恢复反复卡住;推理侧则要在并发请求、长上下文、低时延和高成本之间艰难平衡;一旦进入多模态和语音输出场景,原本看似统一的推理过程还会进一步裂变成多个计算特性完全不同的阶段 #ZeRO-DeepSpeed-2020 #vLLM-2023 #SGLang-Omni-2026

也正因为如此,“AI Infra” 这个词才开始频繁出现。它不是一个新瓶装旧酒的流行概念,而是试图为现代 AI 系统的底层工程现实提供一套更准确的语言:我们不再只关心模型会不会推理,而开始关心模型如何被训练、如何被服务、如何被调度、如何被观测,以及这一切如何在现实成本之内长期运行。

一、AI Infra 到底是什么?

AI Infra(AI Infrastructure)指的是支撑 AI 系统从数据接入、模型训练、模型部署、在线推理到观测治理全过程的底层技术与工程系统。它既包括硬件、网络、存储和运行时,也包括训练/推理引擎、平台编排、数据管线、可观测性和成本治理等能力。

IBM 将 AI infrastructure 概括为支撑 AI 应用与工作负载创建、部署和管理所需的软硬件基础,这是一个合格的起点 #IBM-AI-Infrastructure-2026。但如果把这个定义直接搬到今天的大模型语境里,它又显得有些不够具体。因为在 LLM 时代,AI 基础设施已经不只是“跑模型的机器和软件”,而是一整套围绕高状态性、高并发、高成本、高异构性 workload 组织起来的生产系统。

一句话理解

AI Infra 关注的不是“一个模型怎么运行”,而是“一个现代 AI 系统怎样作为系统运行”。

这里最值得强调的是“系统性”。AI Infra 不是某个单点工具,也不是 GPU 服务器的同义词。它更像是一张从底层硬件一路延伸到上层治理的连续剖面图:最底下是算力、显存、网络和存储;往上是 CUDA、NCCL、runtime、kernel 这类系统软件;再往上是训练框架和推理引擎;然后是 Kubernetes、Ray、KServe、llm-d 一类平台编排能力;再上层是数据接入、检索和知识层;最上面则是观测、评测、安全和成本治理。

二、为什么 AI Infra 会在大模型时代突然变重要?
2.1 训练不再只是算力问题,而是通信与内存问题

当模型规模从数亿参数走向数百亿甚至更高量级时,问题不再是“GPU 快不快”,而是“这些参数、梯度和优化器状态究竟放在哪里,又怎么在多台机器之间同步”。ZeRO 的核心思想,正是通过切分 optimizer states、gradients 和 parameters 来消除冗余,把原本放不下的模型重新塞回分布式系统中 #ZeRO-DeepSpeed-2020 #DeepSpeed-ZeRO-Docs。这意味着大模型训练的第一性约束,已经不只是 FLOPs,而是显存、通信、切分策略和容错机制

2.2 推理不再只是“做一次前向传播”

在离线实验里,推理看上去只是一次 forward;但在真实服务中,它必须面对的是大量并发请求、长短不一的上下文、持续增长的 KV cache,以及 TTFT、TPOT、吞吐、成本之间的多维权衡。vLLM 在介绍 PagedAttention 时明确指出,LLM serving 的瓶颈往往不是纯计算,而是 KV cache 的管理与显存浪费;它通过分页式 KV cache 布局,把许多原本浪费在碎片和过度预留上的内存重新转化成吞吐 #vLLM-2023 #vLLM-PagedAttention-Docs

2.3 多模态与语音把推理进一步拆成异构流水线

文本 LLM 的 serving 已经不简单,但至少它通常还可以被抽象成一个相对统一的 autoregressive loop。多模态尤其是语音输入输出模型,则把这个假设打破了。SGLang-Omni 将现代 omni 模型描述为由多个计算特性完全不同的阶段构成:有的 stage 更吃算力,有的更吃显存带宽,有的则对 kernel launch 和同步时延极其敏感 #SGLang-Omni-2026。这说明一件很关键的事:AI 基础设施的边界,正在被 workload 的计算特性重新定义。

2.4 AI 系统开始像平台,而不是一次性程序

AI 系统越来越不是“写完就跑”的程序,而是长期运行、持续演化、必须被治理的平台。OpenTelemetry 在 2026 年推动了 GenAI semantic conventions,用来统一记录模型名、输入输出 token、tool 调用和 finish reason 等信息 #OpenTelemetry-2026。这传达了一个很重要的信号:token、trace、tool 和质量指标,正在变成 AI 系统的一等观测对象。

三、AI Infra 和 Cloud Infra、MLOps、LLMOps、Inference Infra 分别是什么关系?

为了避免“AI Infra” 变成一个什么都能装进去的大口袋,最好先把几个相近概念分开。

概念核心问题关注对象与 AI Infra 的关系
Cloud Infra机器怎么供给计算、存储、网络、虚拟化、容器是 AI Infra 的底座,但不天然理解模型状态和 KV cache
AI InfraAI workload 怎么跑GPU、通信、runtime、训练/推理、平台、数据、治理本文的核心对象
MLOps模型怎么被持续交付数据、实验、训练、部署、CI/CD更偏生命周期管理
LLMOpsLLM 应用怎么上线和运营prompt、RAG、agent、eval、guardrails更接近上层应用运维
Inference Infra模型上线后怎么高效回答请求serving engine、scheduler、batching、KV cache、routingAI Infra 中当前最热的一支

一个简单的区分方式是:Cloud Infra 解决“机器怎么供给”,AI Infra 解决“AI workload 怎么跑”,MLOps 和 LLMOps 解决“团队怎么把模型持续交付出去”,而 Inference Infra 解决“模型上线以后怎么高效回答每一个请求”。

四、AI Infra 的六层地图

如果把 AI Infra 当成一套系统来看,它至少可以被拆成六层。这六层并不是严格封闭的模块,而更像是一张帮助理解问题分布的地图。

4.1 硬件与互联层

最底层仍然是硬件:GPU、TPU、NPU、HBM、NVLink、PCIe、InfiniBand、RoCE、NIC。无论上层系统设计多么精巧,最终都绕不开这些物理约束。NCCL 作为面向 GPU 的高性能 collective communication 库,持续围绕低时延与大规模扩展做优化,这足以说明通信血管在 AI 基础设施中的核心地位 #NVIDIA-NCCL-2025

4.2 系统软件与运行时层

有了硬件,并不等于有了性能。真正把底层资源转化成吞吐、延迟和稳定性的,是 CUDA、ROCm、NCCL、kernel、compiler、runtime、memory allocator、CUDA Graph 这些系统软件能力。很多时候,AI 基础设施的差异并不直接体现在“支持了哪个模型”,而体现在“有没有更贴近硬件特性的运行时与内存组织方式”。

4.3 训练与推理引擎层

再往上一层,是训练和推理引擎。训练侧的代表是 DeepSpeed、ZeRO、Megatron、FSDP;推理侧则有 vLLM、SGLang、TensorRT-LLM、TGI 等。训练要解决的是大规模参数如何被切分、同步和恢复;推理要解决的是请求如何排队、缓存如何复用、延迟如何压低、吞吐如何做大。因此,训练引擎和推理引擎并不是同一个问题的两个实现,而是两类不同系统目标的产物。

4.4 编排与平台层

当模型走出单机实验环境,问题就会变成:怎么扩容、怎么编排、怎么路由、怎么做多租户隔离、怎么让状态和副本关系保持可控。这里就进入了 Kubernetes、Ray、KServe、llm-d 等平台层问题。llm-d 被 CNCF 接纳为 Sandbox 项目这件事很有象征意义:它说明云原生社区已经明确意识到,AI serving 不是传统无状态 Web 服务的简单延伸,而是一种高度 stateful、latency-sensitive 的特殊 workload,需要 inference-aware routing、prefill/decode disaggregation 和 hierarchical KV cache offloading 等新抽象 #CNCF-llm-d-2026

4.5 数据与知识层

现代 AI 系统的能力,并不只来自预训练参数。越来越多真实应用依赖的是训练前的数据供应链,以及推理时对外部知识的接入与检索。于是,数据清洗、标注、版本化、embedding pipeline、vector DB、hybrid retrieval、RAG knowledge layer,也逐渐成为 AI Infra 的一部分 #IBM-RAG-VectorDB-2026

4.6 可观测性与治理层

最上层是可观测性、评测与治理。传统监控关注 CPU、内存、错误率和 QPS;AI 系统还必须额外关注 token 用量、prompt / completion 路径、tool 调用链、成本波动、输出质量以及安全与合规边界。OpenTelemetry 的 GenAI semantic conventions 所做的事情,本质上就是把这些原本零散、难以统一的观测对象标准化 #OpenTelemetry-2026

五、为什么这个系列会先从推理 Infra 开始写?

如果把 AI Infra 看成一张全景图,理论上可以从训练、数据、平台、治理中的任何一层切入。但如果只选一个最自然的入口,我会优先选推理基础设施

第一,它最贴近用户体验。用户不会直接感受到 ZeRO stage 3 或 NCCL symmetric memory,但他会直接感受到首 token 为什么慢、长上下文为什么贵、并发高了以后服务为什么抖。

第二,它最集中地暴露了现代 AI 系统的核心矛盾。推理侧把显存、缓存、调度、延迟、吞吐和成本这些问题压缩在同一个现场里:GPU 不够大、KV cache 不断增长、请求长度不均匀、延迟预算又极其敏感。很多 AI Infra 的系统创新——PagedAttention、continuous batching、prefix caching、prefill/decode disaggregation——都首先在这里爆发出来 #vLLM-2023 #CNCF-llm-d-2026

第三,它是通向多模态系统最自然的桥。只要把文本推理看明白,就会很自然地走到语音、视频和 omni 模型的多阶段 serving 问题。而这恰好是今天 AI 基础设施最前沿也最“有工程味”的地方之一 #SGLang-Omni-2026

六、这一系列接下来会写什么?

因此,这个系列不会把 AI Infra 写成一份工具清单,而会把它当作一套分层系统来展开:先从推理切入,再逐步扩展到训练、数据与平台治理。

  • LLM 推理基础设施入门:从 prefill 和 decode 开始,解释为什么一个 token 一个 token 的生成过程,会牵出整套系统设计。
  • KV Cache、PagedAttention 与调度器:解释现代推理引擎到底在优化什么,以及为什么很多 serving 问题本质上是内存问题而不是纯算力问题。
  • 从 vLLM 到 SGLang:看不同 inference framework 在 KV 复用、调度、路由与结构化执行上的设计取舍。
  • 多模态推理为什么更难:以 SGLang Omni 为例,看 multi-stage inference 如何重塑推理系统边界。
  • 训练 Infra:回到 ZeRO、Megatron、NCCL,解释为什么训练大模型更像一场分布式协同工程。
  • 数据 Infra:讨论 embedding、retrieval、vector DB 和知识接入,解释为什么现代 AI 系统不仅吃参数,也吃上下文。
  • 平台与治理:回到 Kubernetes、llm-d、OpenTelemetry 和 AI observability,讨论 AI 系统如何长期稳定运营。
结语

AI 时代并没有抛弃传统基础设施,而是在它之上提出了新的要求:系统必须理解模型状态,理解 token 生成过程,理解显存与缓存,理解工具调用、多模态流水线,以及由此带来的延迟、成本和治理问题。所谓 AI Infra,本质上就是基础设施开始真正“理解 AI workload”的那一刻。

当我们谈论 AI Infra 时,真正关心的并不是又多了几个新框架,而是现代 AI 系统已经逼着基础设施从一套通用计算底座,演化成一套面向模型、状态、延迟与治理的专用生产系统。接下来的问题,不再只是“模型会不会”,而是“系统撑不撑得住”。

参考来源

  • IBM. What is AI infrastructure? Updated 2026. IBM Think
  • Kwon, W. et al. vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention. 2023. vLLM Blog
  • vLLM Documentation. Paged Attention. Docs
  • Microsoft Research. ZeRO & DeepSpeed: New system optimizations enable training models with over 100 billion parameters. 2020. Microsoft Research Blog
  • DeepSpeed. ZeRO Overview. DeepSpeed Docs
  • NVIDIA. Enabling Fast Inference and Resilient Training with NCCL 2.27. 2025. NVIDIA Technical Blog
  • Costa, C., Coleman, C., & Shaw, R. Welcome llm-d to the CNCF: Evolving Kubernetes into SOTA AI infrastructure. 2026. CNCF Blog
  • Newton-King, J. Inside the LLM Call: GenAI Observability with OpenTelemetry. 2026. OpenTelemetry Blog
  • sgl-project. SGLang-Omni: High-Performance Serving Framework for Omni and Multimodal Models. 2026. GitHub
  • IBM. What are RAG vector databases? 2026. IBM Think