Langfuse 系列导读：开源 LLM 工程平台从观测到评测

2026/06/03 10:22:02

Langfuse LLMOps AI Infra 可观测性 Prompt Management Evaluation ClickHouse

系列导读

Langfuse 是什么？

Langfuse 是一个开源的 LLM engineering platform，帮助团队协作开发、监控、评估和调试 AI 应用；官方仓库是 langfuse/langfuse，可以使用 Langfuse Cloud，也可以用 Docker Compose、Kubernetes Helm 或云上 Terraform 自托管 #Langfuse Docs, 2026 #Langfuse GitHub, 2026。

它最适合被理解为 LLM 应用的工程驾驶舱：trace 告诉你发生了什么，prompt management 告诉你线上用了哪个指令版本，evaluation 告诉你质量是否真的变好，dataset 和 experiment 把线上问题变成下一轮改进的燃料。

系列目标：这组文章从概念、应用、架构、使用和改进五个角度说明 Langfuse，而不是把所有内容压进一个长页面。

这一组页面怎么读？

页面	回答的问题	适合读者
总览：Langfuse 是什么	Langfuse 的定位、能力地图和阅读路线	第一次了解 Langfuse 的读者
可观测性：Trace、Session 与 Agent Graph	如何记录、分析和设计 LLM 应用 trace	应用开发者、LLMOps 工程师
Prompt Management 与 Evaluation	如何管理 prompt 版本，并用 dataset / experiment 做评测闭环	Prompt 负责人、AI 产品与算法团队
架构与仓库阅读	Web、Worker、ClickHouse、Redis、S3 和 Postgres 如何协作	平台工程师、自托管维护者
实践与改进路线	如何从接入走向生产治理，以及如何贡献上游	团队负责人、平台建设者、开源贡献者

能力地图

Langfuse 解决哪些问题？

1. Observability：看见 LLM 应用的运行过程

Langfuse 可以记录 LLM 调用，也可以记录 retrieval、embedding、API call、agent action 等非 LLM 步骤；多轮对话可以组织为 session，用户维度也可以被跟踪，用于分析成本、延迟和质量问题 #Langfuse Docs, 2026。

2. Prompt Management：把 prompt 变成可发布资产

Langfuse 支持通过 UI、SDK 或 API 创建 prompt，支持版本控制、协作编辑和 label 部署。对生产系统来说，这意味着 prompt 不再只是散落在代码里的字符串，而是可追踪、可回滚、可比较的软件制品 #Langfuse Prompt Management, 2026。

3. Evaluation：把质量判断变成可重复检查

Langfuse 支持用户反馈、人工标注、LLM-as-a-judge、code evaluator、custom scores、datasets 和 experiments。它既能在线监控 production traces，也能在线下比较 prompt、模型或代码变体 #Langfuse Evaluation, 2026。

4. Platform：API-first、自托管与开源扩展

Langfuse 是 API-first 的开源平台，支持 Python/JS SDK、OpenTelemetry、OpenAI、LangChain、LlamaIndex、LiteLLM、Vercel AI SDK 等集成入口；自托管架构则由 Web、Worker、Postgres、ClickHouse、Redis/Valkey 和 S3/Blob Store 构成 #Langfuse GitHub, 2026 #Langfuse Self Hosting, 2026。

闭环

Langfuse 的核心不是日志，而是持续改进

flowchart LR
    App[LLM 应用] --> Trace[Trace / Session]
    Trace --> Score[Feedback / Scores]
    Score --> Dataset[Datasets]
    Dataset --> Experiment[Experiments]
    Experiment --> Prompt[Prompt / Model / Code 更新]
    Prompt --> App

如果只把 Langfuse 当成日志平台，它的价值会被低估。更完整的用法是：从线上 trace 中发现问题，用 score 和 annotation 判断质量，把代表性失败样本沉淀为 dataset，再通过 experiment 比较不同 prompt、模型或代码版本，最后把更好的方案发布回生产。

下一篇可观测性：Trace、Session 与 Agent Graph 专题Prompt Management 与 Evaluation 专题架构与仓库阅读专题实践与改进路线

参考来源

Langfuse. (2026). Langfuse Overview. https://langfuse.com/docs
Langfuse. (2026). langfuse/langfuse GitHub Repository. https://github.com/langfuse/langfuse
Langfuse. (2026). Self-host Langfuse. https://langfuse.com/self-hosting
Langfuse. (2026). Get Started with Prompt Management. https://langfuse.com/docs/prompt-management/get-started
Langfuse. (2026). Evaluation Overview. https://langfuse.com/docs/evaluation/overview