跳到主要内容

Eval、观测与 LLMOps

AI 应用一旦进入多人协作或线上环境,光有模型和 agent 不够。你还需要 trace、prompt 回归测试、实验记录、成本观察和生产态诊断入口。这一页就是把这些工具按工程任务集中起来。

这类资源解决什么问题

  • 帮你快速找到 tracing、prompt regression 和 experiment 平台的稳定入口。
  • 把“观测工具”和“生产平台”分开看,避免刚开始就把平台层做过大。
  • 让你先补可见性,再回到治理和工作流做落地。

首批精选入口

Eval、观测与 LLMOps

收 tracing、prompt regression、应用观测和实验管理相关的网站与仓库。

当前收录 7 个入口 · 其中 3 个标记为精选

资源类型入口更适合什么为什么值得收录
精选Langfuse

覆盖 trace、prompt、成本和评估的开源 LLM 工程平台。

TracingPrompt 版本开源
开源项目想先建立通用 tracing 与 prompt/version 观测基线的团队。开源度高、能力完整,是通用 LLM observability 的高频基线。
精选Phoenix

聚焦 RAG、agent 和 evaluation 诊断的 AI observability 工具。

RAGEvaluation可观测性
开源项目准备分析检索质量、agent 轨迹和失败样式的团队。AI 原生观测路线明确,适合做链路质量分析。
精选Promptfoo

覆盖 prompt regression、红队测试和结果对比的工程化 eval 工具。

RegressionCI红队
开源项目想把 prompt regression 拉进本地验证或 CI 流程的团队。贴近工程落地,适合作为回归测试与对比验证工具。
Helicone

更偏请求日志、成本和缓存层的 LLM 可观测工具。

成本请求日志缓存
开源项目想快速补 usage、成本和请求日志观测的人。接入门槛低,适合先补运营层面的可见性。
LangSmith

LangChain / LangGraph 生态下的 tracing、eval 和实验平台。

LangChainTracingEval
官方产品已经在 LangChain / LangGraph 生态中的团队。生态耦合度高,但对 LangChain 用户来说进入成本最低。
MLflow

成熟的 experiment / artifact / model lifecycle 平台。

ExperimentArtifactMLOps
开源项目已有 MLOps 底座,想把 AI 应用实验管理接回既有平台的团队。传统 MLOps 底座成熟,适合作为更重的平台层参考。
OpenAI Evals

OpenAI 官方的 eval 基础设施和样例仓库。

官方仓库基准样例
官方仓库想研究 eval 数据组织方式和任务基准结构的人。官方样例仓库,适合建立对 eval 形状的直觉。

接入顺序建议

  1. 先补 tracing,不然你连 agent 到底做了什么都很难稳定复盘。
  2. 再补 regression eval,把关键任务收成可重复跑的检查项。
  3. 最后再看更重的 experiment / platform 管理,不要一开始就把平台层做得过大。

继续阅读

继续阅读

观测和 eval 最终要回到你的流程与治理,而不是只留在工具层。