ESC
输入关键词搜索文章
目录

Langfuse

开源 LLM 工程平台说明
从 trace、prompt、eval 到 continuous improvement loop
5系列页面
4核心能力
2应用容器
4存储组件
系列导读
Langfuse 是什么?

Langfuse 是一个开源的 LLM engineering platform,帮助团队协作开发、监控、评估和调试 AI 应用;官方仓库是 langfuse/langfuse,可以使用 Langfuse Cloud,也可以用 Docker Compose、Kubernetes Helm 或云上 Terraform 自托管 #Langfuse Docs, 2026 #Langfuse GitHub, 2026

它最适合被理解为 LLM 应用的工程驾驶舱:trace 告诉你发生了什么,prompt management 告诉你线上用了哪个指令版本,evaluation 告诉你质量是否真的变好,dataset 和 experiment 把线上问题变成下一轮改进的燃料。

系列目标:这组文章从概念、应用、架构、使用和改进五个角度说明 Langfuse,而不是把所有内容压进一个长页面。
这一组页面怎么读?
页面回答的问题适合读者
总览:Langfuse 是什么Langfuse 的定位、能力地图和阅读路线第一次了解 Langfuse 的读者
可观测性:Trace、Session 与 Agent Graph如何记录、分析和设计 LLM 应用 trace应用开发者、LLMOps 工程师
Prompt Management 与 Evaluation如何管理 prompt 版本,并用 dataset / experiment 做评测闭环Prompt 负责人、AI 产品与算法团队
架构与仓库阅读Web、Worker、ClickHouse、Redis、S3 和 Postgres 如何协作平台工程师、自托管维护者
实践与改进路线如何从接入走向生产治理,以及如何贡献上游团队负责人、平台建设者、开源贡献者
能力地图
Langfuse 解决哪些问题?

1. Observability:看见 LLM 应用的运行过程

Langfuse 可以记录 LLM 调用,也可以记录 retrieval、embedding、API call、agent action 等非 LLM 步骤;多轮对话可以组织为 session,用户维度也可以被跟踪,用于分析成本、延迟和质量问题 #Langfuse Docs, 2026

2. Prompt Management:把 prompt 变成可发布资产

Langfuse 支持通过 UI、SDK 或 API 创建 prompt,支持版本控制、协作编辑和 label 部署。对生产系统来说,这意味着 prompt 不再只是散落在代码里的字符串,而是可追踪、可回滚、可比较的软件制品 #Langfuse Prompt Management, 2026

3. Evaluation:把质量判断变成可重复检查

Langfuse 支持用户反馈、人工标注、LLM-as-a-judge、code evaluator、custom scores、datasets 和 experiments。它既能在线监控 production traces,也能在线下比较 prompt、模型或代码变体 #Langfuse Evaluation, 2026

4. Platform:API-first、自托管与开源扩展

Langfuse 是 API-first 的开源平台,支持 Python/JS SDK、OpenTelemetry、OpenAI、LangChain、LlamaIndex、LiteLLM、Vercel AI SDK 等集成入口;自托管架构则由 Web、Worker、Postgres、ClickHouse、Redis/Valkey 和 S3/Blob Store 构成 #Langfuse GitHub, 2026 #Langfuse Self Hosting, 2026

闭环
Langfuse 的核心不是日志,而是持续改进
flowchart LR
    App[LLM 应用] --> Trace[Trace / Session]
    Trace --> Score[Feedback / Scores]
    Score --> Dataset[Datasets]
    Dataset --> Experiment[Experiments]
    Experiment --> Prompt[Prompt / Model / Code 更新]
    Prompt --> App

如果只把 Langfuse 当成日志平台,它的价值会被低估。更完整的用法是:从线上 trace 中发现问题,用 score 和 annotation 判断质量,把代表性失败样本沉淀为 dataset,再通过 experiment 比较不同 prompt、模型或代码版本,最后把更好的方案发布回生产。

参考来源