真实环境中的代理评测继续深化
Continuing从prev_1的“Agent 开发进入可测试、可评测阶段”和prev_3的“可靠性评测同步升温”延续到今天,评测正在进一步贴近真实工作流。CR-Bench不再只报能否找出缺陷,而是把代码审查代理的有效性拆成 Recall、Precision、Usefulness Rate 和 SNR;在 CR-Bench-verified 174 上,single-shot + GPT-5.2 的 Recall 为 27.01%,但 Usefulness 达 83.63%、SNR 为 5.11。SpecOps则在5个真实GUI智能体上发现164个真实 bug,报告 F1=0.89,单次测试成本低于0.73美元。