ESC
输入关键词搜索文章
目录

平台与治理

AI Infra 最终拼的是可控、可观测、可扩展
模型跑起来只是开始,长期运营才是真正的考场
82%生产环境使用 K8s 的比例
4OTel 观测支柱
3治理核心维度
系列八
跑起来只是开始,长期运营才是真正的考场

前面的文章覆盖了 AI Infra 的大部分层次:硬件与互联、系统运行时、训练与推理引擎、数据与知识。但一个现代 AI 系统要真正投入生产并长期稳定运行,还缺最后一层:平台编排、可观测性与治理

这层之所以重要,是因为 AI workload 和传统 Web 服务有着本质不同:它是高状态的(KV cache 不能随意丢弃)、高成本的(每次请求都直接消耗 GPU 时间和显存)、延迟敏感的(用户无法容忍数秒等待),而且行为难以预测(同样的 prompt 可能产生截然不同的输出和耗时)#CNCF-llm-d-2026 #OpenTelemetry-2026

这些特性决定了:你不能只是把模型塞进容器然后交给 Kubernetes,而需要一整套面向 AI workload 的平台能力。

一、Kubernetes 正在成为 AI workload 的平台底座

根据 CNCF 的调查,82% 的容器用户已在生产环境使用 Kubernetes,而越来越多的 AI 团队也开始把训练任务、推理服务和 agent 工作流部署在 K8s 上 #CNCF-Kubernetes-AI-2026

但标准 K8s 并不是为 AI workload 设计的。传统 K8s 擅长管理无状态服务:一个请求进来,处理完就结束,pod 之间不共享状态。而 AI serving 是高度 stateful 的:KV cache 需要在请求之间保持,模型权重需要被稳定加载,推理节点的状态直接影响路由决策。

这催生了一批 K8s 之上的 AI 平台项目,其中 llm-d 是最有代表性的之一。

二、llm-d:当 K8s 开始理解推理

llm-d 被 CNCF 接纳为 Sandbox 项目,标志着云原生社区明确意识到:AI serving 需要新的平台抽象 #CNCF-llm-d-2026

llm-d 的核心设计围绕三个 AI serving 特有的问题展开:

  • Prefill/Decode Disaggregation:把 prompt 处理和 token 生成拆成独立的 pod 池,各自独立扩缩容。因为 prefill 更吃算力,decode 更吃显存带宽,混在一起会导致资源利用率低下。
  • Inference-Aware Routing:传统负载均衡只看 CPU/内存利用率,但 AI serving 需要考虑 KV cache locality、队列深度、模型加载状态等因素。llm-d 引入了 prefix-cache-aware routing,把请求路由到已经缓存了相关前缀的节点上。
  • Hierarchical KV Cache Offloading:当 GPU 显存不够时,把 KV cache 按热度分层卸载到 CPU DRAM 甚至 NVMe 存储,以成本和延迟的权衡换取更大的上下文容量。

关键信号

llm-d 进入 CNCF 说明了一件事:AI 基础设施正在从“在 K8s 上跑 AI”走向“K8s 为 AI 而进化”。

三、可观测性:AI 系统需要新的观测语言

传统系统监控关注 CPU、内存、错误率和 QPS。但 AI 系统需要观测的对象完全不同:

  • Token 用量:输入输出 token 数直接决定成本和延迟。
  • 模型调用链:一个用户请求可能触发多个模型调用、工具调用和检索操作,需要完整的分布式追踪。
  • 输出质量:响应是否忠实于检索内容?是否存在幻觉?毒性如何?
  • 成本波动:不同请求的成本差异巨大,需要精细的成本归因和预算控制。

OpenTelemetry 在 2026 年推动了 GenAI semantic conventions,标准化了如何记录模型名、token 计数、工具调用、finish reason 等信息 #OpenTelemetry-2026。这让 AI 观测从“每个团队自己造轮子”走向了“跨工具、跨厂商的统一标准”。

观测即基础设施:在 AI 系统中,可观测性不是附加功能,而是决定系统能否被理解、调试和优化的核心能力。
四、治理的三根支柱:成本、安全、合规
4.1 成本治理

GPU 时间是最昂贵的计算资源之一。一个未被妥善治理的 AI 系统可能产生惊人的账单:长上下文请求、无限循环的 agent 调用、低效的 cache 策略、以及未使用的预留实例。成本治理需要精细的配额管理、按用户/按请求的计费、以及自动化的资源回收策略。

4.2 安全与访问控制

AI 系统面临独特的安全挑战:prompt injection、数据泄露、模型窃取、以及生成内容的合规风险。多租户环境中的隔离(不同客户的数据和模型不能互相访问)是基础要求,但实现起来比传统服务更复杂,因为模型权重和 KV cache 都可能成为信息泄露的通道。

4.3 合规与审计

随着 AI 监管框架的成熟(如 EU AI Act),企业需要证明其 AI 系统的决策过程是可解释的、数据使用是合规的、以及模型输出是可审计的。这要求系统从设计之初就内置追踪、日志和版本控制机制。

五、平台层的核心使命:让 AI 系统从“能跑”到“敢跑”

如果把 AI Infra 的六层地图拉通来看,平台与治理层处于最顶端,但它不是“装饰层”,而是决定整个系统能否从实验走向生产的决定性因素。

  • 硬件和运行时层回答了“能不能算”;
  • 训练和推理引擎层回答了“模型能不能工作”;
  • 数据和知识层回答了“模型有没有足够的信息”;
  • 平台与治理层回答了“系统能不能长期、稳定、可控地服务真实用户”。

一个训练得再好的模型,如果缺乏监控、没有成本约束、无法处理故障、不能隔离多租户,就无法真正投入生产。平台层的使命,就是让 AI 系统从“能跑”进化到“敢跑”。

六、系列收束:一张更完整的 AI Infra 地图

到这篇为止,这个系列已经覆盖了 AI Infra 的六个层次:

层次核心问题代表技术
硬件与互联算力、显存、带宽、通信拓扑GPU、NVLink、InfiniBand、NCCL
系统软件与运行时怎么把硬件能力榨出来CUDA、kernel、runtime、CUDA Graph
训练与推理引擎模型怎么训练得动、服务得起DeepSpeed、vLLM、SGLang、TensorRT-LLM
编排与平台多节点、多租户下怎么调度与扩缩容Kubernetes、llm-d、Ray
数据与知识模型吃什么、上线时查什么Embedding、Vector DB、RAG
可观测性与治理跑得稳不稳、值不值、合不合规OpenTelemetry、成本监控、安全策略

AI Infra 不是一份工具清单,而是一套围绕 AI workload 特性重构出来的生产系统。当基础设施开始真正“理解”模型状态、token 生成过程、显存约束和多模态流水线时,我们才可以说:AI Infra 作为一个独立工程领域,已经真正成立。

参考来源

  • Costa, C., Coleman, C., & Shaw, R. Welcome llm-d to the CNCF: Evolving Kubernetes into SOTA AI infrastructure. 2026. CNCF Blog
  • CNCF. The great migration: Why every AI platform is converging on Kubernetes. 2026. CNCF Blog
  • Newton-King, J. Inside the LLM Call: GenAI Observability with OpenTelemetry. 2026. OpenTelemetry Blog