2026年5月6日 · 6 分钟

用评测驱动 Agent 迭代，而不是靠主观感觉修修补补

如果没有稳定的评测切面，很多 Agent 改动都会陷入看似变好、实际不可验证的状态。

Evaluation Agent Reliability

Evaluation driven iteration cover

Agent 开发里最危险的阶段，是“感觉它好像更聪明了”。

Evaluation dashboard sketch

只要缺少稳定评测，很多修复都可能引入新的退化。一个更可靠的做法是先回答：

这次改动要改善哪个切面？
失败样本能否复现？
成功标准是业务答案、工具覆盖、还是证据链完整？

当评测维度明确后，迭代就会从“拍脑袋调参”变成“围绕失败模式逐项收敛”。