Agent 开发里最危险的阶段,是“感觉它好像更聪明了”。 只要缺少稳定评测,很多修复都可能引入新的退化。一个更可靠的做法是先回答: 这次改动要改善哪个切面? 失败样本能否复现? 成功标准是业务答案、工具覆盖、还是证据链完整? 当评测维度明确后,迭代就会从“拍脑袋调参”变成“围绕失败模式逐项收敛”。