主题概况

Code Agents

趋势

想法

代码代理运行溯源

代码代理工作现在已有足够证据支持更窄的采用门禁：接受代理拉取请求前要求可运行的设置和测试证明；信任排行榜数字前审计评测工具链中的分数利用；漏洞修复中使用成对的崩溃和安全执行。共同的运维需求是一份记录，说明运行了什么、什么失败了、改了什么，以及可用权限有哪些。

Code Agents Agent Evaluation Executable Feedback Software Engineering Benchmarks

趋势 · 日 · 2026-05-16 · Software Intelligence

代码 agent 正在按有边界的工人来测试，而不是按代码生成器来测试

最强的信号是操作层面的评估。1GC-7RC、AgentKernelArena 和 TOBench 都在有工具、运行时检查和资源限制的封闭工作循环里给 agent 打分。同样的关注也出现在可靠性论文、供应链风险研究和 token 预算报告中。

Code Agents Agent Benchmarks Execution Feedback GPU kernels

想法 · 日 · 2026-05-16 · Software Intelligence

受控的代码代理运作

代码代理已经适合在工程工作流里做更窄的运行测试：固定预算的验收运行、安装前的包名检查，以及与 token 支出挂钩的受限代码编辑试点。共同点是对代理的动作、产出和成本做可测的控制。

Code Agents Agent Benchmarks Execution Feedback GPU kernels

趋势 · 日 · 2026-04-17 · Software Intelligence

编码进展来自更严格的中间检查

这一天最清楚的信号是，编码研究正在把生成、检索或自主行动之前的检查收紧。LogicLoc、REA-Coder 和 Zoro 都加了具体的控制点：对代码事实做结构化查询、做需求对齐循环、以及把规则执行绑定到计划步骤。共同重点很简单。更好的编码结果来自更强的中间证据，而不只是更强的基础模型。

Code Agents Repository Reasoning Requirement Alignment Multimodal Retrieval

想法 · 日 · 2026-04-17 · Software Intelligence

中间动作检查

短期最清晰的构建方向，是在代理行动前加控制层检查理解情况。这里最具体的三个例子分别是：面向意图型查询的结构化仓库定位器、围绕代码生成的需求对齐门禁，以及面向长编码会话的规则执行封装。每一个都插入了一个明确的中间检查，并且都有更好定位、更好任务匹配或更好守规则的直接证据。

Code Agents Repository Reasoning Requirement Alignment Multimodal Retrieval

趋势 · 日 · 2026-04-07 · Software Intelligence

软件代理研究正在收紧接口、指标和安全检查

这一天最强的工作，是让软件代理更容易被约束、检查和评分。CodeStruct 和 SWE-Shield 把代码代理评估收紧到精确编辑和设计规则。Gym-Anything 把计算机使用测试扩展到更长的真实软件任务。安全论文给出了最难反驳的证据：生成代码常常可利用，自主攻击系统在复杂的多步设置里仍会失败。

Code Agents Software Repair Security Benchmarks

想法 · 日 · 2026-04-07 · Software Intelligence

Patch Quality Gates

具体变化已经出现在三个地方：仓库修复代理可以围绕命名代码实体工作，并根据小而有效的 diff 来评估；补丁评估需要在测试通过率之外加入设计约束检查；AI 编写的安全敏感代码需要一个检查可利用性的审查门，而不是只信任提示词或自动攻击循环。

Code Agents Software Repair Security Benchmarks