主题概况

Tool Use

趋势

想法

编码代理信任关卡

编码代理的采用需要在正常工程工作中加入证据检查：工具调用的执行前验证器、维护任务的仓库接受规则，以及积压工作的分阶段工单安全测试。共同压力是在真实操作、合并或安全敏感部署前建立可操作的信任。

趋势 · 日 · 2026-05-10 · Software Intelligence

这一时期的主要信号是对 AI 构建软件提出更严格的证据要求。ConCovUp、RubricRefine 和 MonitoringBench 都是在测试代理的具体失效模式：错过并发交互、错误的工具契约，以及隐藏的破坏。快速做应用也会带来可测的安全和维护成本。

想法 · 日 · 2026-05-10 · Software Intelligence

Agent 软件工作正在转向与具体失败模式绑定的检查：会返回看似合理却错误结果的实时工具调用、用狭窄攻击集测试的监控器，以及顺序测试漏掉共享内存交互的 C/C++ 库。实际工作是在这些流程前面加小门槛，避免 agent 直接接触生产系统或安全关键仓库。

趋势 · 日 · 2026-04-02 · Software Intelligence

今天的研究最强的地方，是软件工作可以通过执行来检查。重点是更严格地评估编码代理，以及为代码和 API 生成更好的测试。ProdCodeBench 和 ToolMisuseBench 都缩小了基准分数与部署条件之间的差距。结果是，我们更清楚地看到代理在哪些地方还能用，在哪些地方仍然会失效。

想法 · 日 · 2026-04-02 · Software Intelligence

面向生产的软件代理工作，正在三个地方变得更具体：用于编码代理的私有回放基准、用于工具调用失败与恢复的确定性测试，以及生成可运行脚本的、由需求驱动的 API 测试生成。每一项都能落到团队自己的仓库、工具契约或基于 OpenAPI 的服务上做试点。