从 AI First 到 Harness 工程
核心观点
Agent 效能 = 模型质量 × Harness 质量
AI First 解决了"用不用 AI"的问题,Harness 工程解决了"AI 用得好不好"的问题。
模型决定上限,Harness 决定下限。
分享结构
开场:一个问题引入(5 分钟)
核心问题:你的团队已经 AI First 了,为什么产出质量还是不稳定?
- AI First 的承诺 vs 现实落差
- 模型演示时很强,进入真实仓库、真实权限和真实交付链后就不稳定
- 引出核心公式:Agent 效能 = 模型质量 × Harness 质量
课堂互动:让听众先回答"为什么不稳定",通常会出现三类直觉:
- 模型还不够强
- Prompt 写得不够好
- 数据和上下文不够多
然后引出判断:更常见的短板是 Harness 没有设计完整。
第一部分:AI First 为什么不够(10 分钟)
1. 模型能力天花板已到
- GPT-4、Claude 4 系列已经很强,但"裸用"模型的收益在递减
- 模型再强,如果工具层、状态层或恢复层接近 0,系统整体效果仍然接近 0
2. 三个常见失败模式
| 失败模式 | 表现 | 根因 |
|---|---|---|
| 只换模型不换流程 | 升级了最新模型,工作方式没变 | 没有 Harness 意识 |
| Prompt 即全部 | 把所有期望塞进一条 prompt | 缺少工具、状态、验证层 |
| 无验证就交付 | AI 写完直接合并 | 没有质量门禁和恢复路径 |
3. 竞争焦点已转移
- 从"模型能不能写" → "谁来编排和调度"
- 模型经常可替换,Harness 更容易沉淀为组织资产
第二部分:什么是 Harness 工程(15 分钟)
核心定义
Harness = 模型之外、让 Agent 可靠工作的一切工程机制
不是"模型外面的一层壳",而是 Agent 的操作系统。
1. Harness 能力栈(六层)
| 子系统 | 解决什么问题 | 典型实现 |
|---|---|---|
| Prompt 编排 | 模型当前该按什么角色、目标和约束工作 | system prompt、task contract、instruction files |
| 工具路由 | 模型怎样接入外部能力 | function calling、MCP、API gateway |
| 记忆管理 | 哪些上下文要保留,哪些要淘汰 | 会话上下文、长期记忆、压缩摘要 |
| 状态机 | 当前任务进行到哪里,下一步该走哪条边 | task state、event log、workflow engine |
| 运行时/沙箱 | 代码、浏览器、文件系统在哪执行 | sandbox、container、browser runtime |
| 护栏与恢复 | 出错、越界、注入或结果异常时怎么办 | schema validation、approvals、retry、rollback |
关键:不是"多加几个工具",而是把工具、记忆、状态和恢复连成一套闭环。