代码代理走向可验证闭环,安全审计与研发自动化同步升温
今天的材料很集中。核心不是“Agent更多了”,而是“Agent更像工程系统了”。训练、验证、安全和上线开始被接成闭环。最强信号来自软件工程代理。SWE-Fuse不再把issue文本当成唯一入口,而是显式训练“没有靠谱issue也能靠测试和调试找问题”的能力。这种弱监督思路很务实,也更贴近真实仓库。它在SWE-benchVerified上把32B开源模型推到60.
Overview
今天的材料很集中。核心不是“Agent更多了”,而是“Agent更像工程系统了”。训练、验证、安全和上线开始被接成闭环。最强信号来自软件工程代理。SWE-Fuse不再把issue文本当成唯一入口,而是显式训练“没有靠谱issue也能靠测试和调试找问题”的能力。这种弱监督思路很务实,也更贴近真实仓库。它在SWE-benchVerified上把32B开源模型推到60.
Evolution
今天与 结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)、软件工程代理走向执行闭环,基础设施与可靠性评测同步升温 (2026-03-07)、代码智能体走向自纠错、级联部署与可验证安全 (2026-03-06) 一脉相承,主线仍是代码与智能体工程化。但变化在于,验证、评测和安全门控都更靠近内部制品本身。system prompt、训练轨迹、后训练流程和生产热更新,开始被当成可测、可审、可比较的对象。
Agent 安全从外围治理转向内部制品审计
ShiftingAgent 研发自动化基准开始成形
EmergingClusters
软件工程代理转向弱监督修复训练
当天最强主线仍是软件工程代理,但重点从“能写代码”转向“在脏任务描述下稳定修复”。SWE-Fuse 把有 issue 与无 issue 轨迹混训,并用熵感知 RLVR 提升探索质量;在 SWE-bench Verified 上,8B/32B 分别到 43.0%/60.2%,TTS@8 后到 49.8%/65.2%。这说明代码代理训练开始少依赖干净监督,更多依赖测试、调试与轨迹质量控制。
Representative sources
- SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training — Xin-Cheng Wen; Binbin Chen; Haoxuan Lan; Hang Yu; Peng Di; Cuiyun Gao
Agent 开发进入“可测试、可评测”阶段
另一条清晰主线是把代理开发过程本身工程化。TDAD 将行为规格编译成测试,再反复修 prompt,24 次试验中 v1 编译成功率 92%,隐藏测试通过率 97%。与之相呼应,PostTrainBench 把“自动做后训练”变成受限算力下的公开评测:最佳 agent 加权平均 23.2%,高于 base 的 7.5%,但仍远低于官方 instruction-tuned 的 51.1%。这类工作共同把 agent 从演示推向可量化开发流程。
Representative sources
- Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications — Tzafrir Rehan
- PostTrainBench: Can LLM Agents Automate LLM Post-Training? — Ben Rank; Hardik Bhatnagar; Ameya Prabhu; Shira Eisenberg; Karina Nguyen; Matthias Bethge; …
Agent 安全前移到提示架构与迭代门控
安全不再只谈提示注入,而是前移到系统提示架构与迭代改码过程。Arbiter 将 system prompt 当作软件制品做干扰分析,在三类编码代理上找出 152 个 findings,总成本仅 0.27 美元。SCAFFOLD-CEGIS 则显示多轮 refinement 会悄悄伤安全:GPT-4o 下 43.7% 的迭代链 10 轮后漏洞更多,而完整框架可把潜在安全退化率降到 2.1%,并实现 100% safety monotonicity。
Representative sources
- Arbiter: Detecting Interference in LLM Agent System Prompts — Tony Mason
- SCAFFOLD-CEGIS: Preventing Latent Security Degradation in LLM-Driven Iterative Code Refinement — Yi Chen; Yun Bian; Haiquan Wang; Shihao Li; Zhe Cui
代理闭环深入测试生成与生产优化
当日还出现一批“代理直接驱动真实执行系统”的证据。Java fuzzing 工作用五智能体流水线自动生成 harness,在 6 个库、7 个目标方法上取得方法定向覆盖率中位数 +26%,并在 12 小时内发现 3 个未报告 bug。Datadog 的自治优化系统则把 LLM 演化、形式化验证、影子流量和热更新串成闭环,把某工作负载吞吐从 7,106 msg/s 提到 26,263 msg/s,提升 270%。这表明代理开始深入测试与生产性能优化。
Representative sources
- Coverage-Guided Multi-Agent Harness Generation for Java Library Fuzzing — Nils Loose; Nico Winkel; Kristoffer Hempel; Felix Mächtle; Julian Hans; Thomas Eisenbarth
- Closing the verification loop, Part 2: autonomous optimization — chrisra
RL 检索代理与原生 Agent 语言开始冒头
还有一条较新的支线是把 RL 直接用于检索行为本身,而不是只用于回答质量。金融领域的 agentic RAG 训练把 4B 小模型做成检索代理,声称相对 GPT-5.2 答案匹配频率高约 35%,pass@8 提升约 63%。同时,Agentis 这类项目尝试把 prompt、验证、预算与分支执行直接做进语言和版本系统。前者更偏实证性能,后者更偏运行时与语言设计。
Representative sources
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.