跳到主要内容

Eval、观测与 LLMOps

AI 应用一旦进入多人协作或线上环境，光有模型和 agent 不够。你还需要 trace、prompt 回归测试、实验记录、成本观察和生产态诊断入口。这一页就是把这些工具按工程任务集中起来。

这类资源解决什么问题

帮你快速找到 tracing、prompt regression 和 experiment 平台的稳定入口。
把“观测工具”和“生产平台”分开看，避免刚开始就把平台层做过大。
让你先补可见性，再回到治理和工作流做落地。

首批精选入口

35 个入口热门 5上升 9

Hermes Agenthermes-agent.nousresearch.comHermes AgentNous Research 的自托管 self-improving agent，强调长期记忆、技能生成、消息入口、模型灵活性和持续运行。研发 · 成熟社区 · 最新热门Self-improving自托管 agentSkills Model Context Protocolmodelcontextprotocol.ioModel Context ProtocolMCP 的官方协议文档和官方 GitHub 组织入口。研发 · 官方 · 最新热门MCP协议官方 OpenAI Agents SDKopenai.github.ioOpenAI Agents SDK轻量官方 SDK，覆盖 agent、tool calling、handoff 和 guardrails。研发 · 官方 · 最新热门官方 SDKHandoffGuardrails OpenClawopenclaw.aiOpenClaw本地优先的开源个人 AI assistant / autonomous agent，可通过聊天入口管理邮件、日历、浏览器、命令和多 agent 任务。研发 · 成熟社区 · 最新热门个人 AI assistantOpen-source agentLocal-first Vercel AI SDKai-sdk.devVercel AI SDKVercel / Next.js 团队维护的 TypeScript AI 应用开发工具包，覆盖 streaming、tool calling、UI hooks 和 provider 接入。研发 · 官方 · 最新热门TypeScriptStreaming UIWeb AI app Browser Usebrowser-use.comBrowser Use让 LLM 控制浏览器完成网页任务的开源自动化框架与云服务入口。研发 · 成熟社区 · 快速上升Browser agent自动化开源 Cloudflare Agentsdevelopers.cloudflare.comCloudflare AgentsCloudflare 面向 Durable Objects、边缘运行时和实时连接的 Agents SDK。研发 · 官方 · 快速上升Cloudflare边缘运行时Agent SDK Composiocomposio.devComposio面向 AI agents 的工具连接、认证、MCP server 和外部动作执行平台。研发 · 官方 · 快速上升工具连接认证MCP E2Be2b.devE2B面向 AI agents 的安全云沙箱和代码执行环境，支持隔离运行 AI 生成代码。研发 · 官方 · 快速上升沙箱代码执行Agent infra Hermes Agent Self Evolutiongithub.comHermes Agent Self EvolutionHermes 生态的自进化实验项目，用 DSPy + GEPA 优化 skills、prompts，并规划进一步优化工具描述和实现代码。研发 · 成熟社区 · 快速上升Self-evolutionGEPASkill 优化 KiloClawkilo.aiKiloClawKilo 提供的托管 OpenClaw 体验，把 OpenClaw 的 24/7 agent 能力包装成免自托管部署、监控和模型网关。研发 · 官方 · 快速上升Managed OpenClaw托管 agentKilo NemoClawdocs.nvidia.comNemoClawNVIDIA 的 OpenClaw 衍生安全运行方案，把 OpenClaw 放进 OpenShell，并接入托管推理能力。研发 · 成熟社区 · 快速上升OpenClaw 生态安全运行时NVIDIA OpenShelldocs.nvidia.comOpenShell面向 autonomous AI agents 的安全、私有运行时，用来隔离和控制 agent 执行环境。研发 · 成熟社区 · 快速上升Agent runtime安全边界Sandbox Ragasdocs.ragas.ioRagas面向 RAG 和 LLM 应用的评估框架，支持构造数据集、运行 eval 和保存实验结果。研发 · 成熟社区 · 快速上升RAGEvaluation质量度量 LiteLLMdocs.litellm.aiLiteLLM统一 100+ LLM provider 调用、路由、预算、日志和代理网关的开源项目。研发 · 成熟社区 · 值得关注LLM Gateway路由成本治理 AutoGenmicrosoft.github.ioAutoGen微软系多 agent 协作框架，强调角色分工和会话式协作。研发 · 官方多 agentMicrosoft角色协作 Langfuselangfuse.comLangfuse覆盖 trace、prompt、成本和评估的开源 LLM 工程平台。研发 · 成熟社区TracingPrompt 版本开源 LangGraphlangchain-ai.github.ioLangGraph图式状态流框架，适合表达复杂 agent workflow 和恢复逻辑。研发 · 官方图式编排状态机恢复 MCP Serversgithub.comMCP Servers官方 MCP servers 仓库，集中维护多个参考实现。研发 · 官方参考实现官方仓库Server Phoenixphoenix.arize.comPhoenix聚焦 RAG、agent 和 evaluation 诊断的 AI observability 工具。研发 · 成熟社区RAGEvaluation可观测性 Promptfoopromptfoo.devPromptfoo覆盖 prompt regression、红队测试和结果对比的工程化 eval 工具。研发 · 成熟社区RegressionCI红队 CrewAIdocs.crewai.comCrewAI强调多角色 crew 的任务编排框架。研发 · 官方Crew多角色原型 FastMCPgofastmcp.comFastMCP围绕 Python 开发体验优化的 MCP 框架。研发 · 成熟社区Python开发体验MCP server Heliconehelicone.aiHelicone更偏请求日志、成本和缓存层的 LLM 可观测工具。研发 · 成熟社区成本请求日志缓存 LangSmithlangchain.comLangSmithLangChain / LangGraph 生态下的 tracing、eval 和实验平台。研发 · 官方LangChainTracingEval LlamaIndexdocs.llamaindex.aiLlamaIndex把数据层、RAG 和 agent 组合在一起的应用框架。研发 · 官方RAG数据层知识应用 Mastramastra.aiMastra现代 TypeScript 栈上的 AI app 与 agent framework。研发 · 官方TypeScriptWeb 开发应用框架 MCP Python SDKgithub.comMCP Python SDKPython 方向的官方 MCP SDK。研发 · 官方PythonSDK官方 MCP TypeScript SDKgithub.comMCP TypeScript SDKTypeScript 方向的官方 MCP SDK。研发 · 官方TypeScriptSDK官方 MCP.somcp.soMCP.so聚合 MCP server 和 client 的第三方市场与发现站。研发 · 成熟社区社区导航MCP Server发现 MLflowmlflow.orgMLflow成熟的 experiment / artifact / model lifecycle 平台。研发 · 成熟社区ExperimentArtifactMLOps OpenAI Apps SDKdevelopers.openai.comOpenAI Apps SDKOpenAI 面向 ChatGPT 应用与 MCP 相关集成的官方开发入口。研发 · 官方Apps SDKOpenAI集成 OpenAI Evalsgithub.comOpenAI EvalsOpenAI 官方的 eval 基础设施和样例仓库。研发 · 官方官方仓库基准样例 PydanticAIai.pydantic.devPydanticAI强调结构化输出和类型安全的 Python agent 框架。研发 · 官方Python类型安全结构化输出 Smitherysmithery.aiSmithery面向 MCP server 发现和分发的目录站。研发 · 成熟社区目录站发现生态

接入顺序建议

先补 tracing，不然你连 agent 到底做了什么都很难稳定复盘。
再补 regression eval，把关键任务收成可重复跑的检查项。
最后再看更重的 experiment / platform 管理，不要一开始就把平台层做得过大。

继续阅读

继续阅读

观测和 eval 最终要回到你的流程与治理，而不是只留在工具层。

规范评估与治理

把 eval、review、风险和门禁收回到规则层。

让 tracing 与 regression 回到具体交付流程里。

AI 资源导航首页

回到目录首页，切换到工具入口、模型平台或学习资源。