Trend brief · 2026-03-09

代码代理走向可验证闭环，安全审计与研发自动化同步升温

今天的材料很集中。核心不是“Agent更多了”，而是“Agent更像工程系统了”。训练、验证、安全和上线开始被接成闭环。最强信号来自软件工程代理。SWE-Fuse不再把issue文本当成唯一入口，而是显式训练“没有靠谱issue也能靠测试和调试找问题”的能力。这种弱监督思路很务实，也更贴近真实仓库。它在SWE-benchVerified上把32B开源模型推到60.

6 tracked topics

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

Software Intelligence

software-agents agent-evaluation agent-safety software-engineering rl-agents autonomous-optimization

Source markdown

Overview

Evolution

3 signals3 history windows

今天与结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)、软件工程代理走向执行闭环，基础设施与可靠性评测同步升温 (2026-03-07)、代码智能体走向自纠错、级联部署与可验证安全 (2026-03-06) 一脉相承，主线仍是代码与智能体工程化。但变化在于，验证、评测和安全门控都更靠近内部制品本身。system prompt、训练轨迹、后训练流程和生产热更新，开始被当成可测、可审、可比较的对象。

代码智能体继续走向可验证闭环

Continuing

History

结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)软件工程代理走向执行闭环，基础设施与可靠性评测同步升温 (2026-03-07)代码智能体走向自纠错、级联部署与可验证安全 (2026-03-06)

延续代码智能体走向自纠错、级联部署与可验证安全 (2026-03-06)、软件工程代理走向执行闭环，基础设施与可靠性评测同步升温 (2026-03-07) 到结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 的主线，代码智能体继续从“会生成”转向“可验证执行”。但今天证据更硬：SWE-Fuse 不再只强调自纠错，而是在 SWE-bench Verified 上把 32B solve rate 做到 60.2%，TTS@8 达到 65.2%；Datadog 的自治优化系统则把验证直接接到生产热更新上，在保留流量哈希校验后把吞吐从 7,106 msg/s 提到 26,263 msg/s。相比软件工程代理走向执行闭环，基础设施与可靠性评测同步升温 (2026-03-07) 中 Echo 这类执行闭环，今天的闭环更接近训练—验证—上线一体化。

Agent 安全从外围治理转向内部制品审计

Shifting

History

结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)代码智能体走向自纠错、级联部署与可验证安全 (2026-03-06)

安全焦点相对结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 与代码智能体走向自纠错、级联部署与可验证安全 (2026-03-06) 出现位移。此前更强调数据流治理、可验证安全与故障分类；今天则更具体地落到“system prompt 架构”和“多轮改码过程”两类内部制品。Arbiter 在 Claude Code、Codex CLI、Gemini CLI 上共找出 152 个 findings，并指出 Claude Code 的 21 类干扰中有 20 类可静态检测；SCAFFOLD-CEGIS 则给出迭代链安全退化的量化证据：GPT-4o 下 43.7% 的链条 10 轮后漏洞更多，完整门控把退化率压到 2.1%。这比结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 的泛化治理表述更工程化、更可测。

Agent 研发自动化基准开始成形

Emerging

History

结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)软件工程代理走向执行闭环，基础设施与可靠性评测同步升温 (2026-03-07)

相较结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 的长期运行与软件工程代理走向执行闭环，基础设施与可靠性评测同步升温 (2026-03-07) 的协议化/语言级约束，今天更明显出现了“把 agent 自身研发流程基准化”的新信号。TDAD 用 SpecSuite-Core 把规格编译为测试，24 次试验里 v1 编译成功率 92%、v2 为 58%、SURS 97%；PostTrainBench 则首次把自主后训练放进 10 小时单张 H100 的统一约束下，最佳 agent 23.2% ± 1.8，虽然仍低于官方 instruction-tuned 51.1%，但已在 BFCL 等窄任务上出现 89% 和 91% 的局部超越。研究对象正在从“agent 完成任务”扩展到“agent 改进模型与 prompt 本身”。

Clusters

软件工程代理转向弱监督修复训练

当天最强主线仍是软件工程代理，但重点从“能写代码”转向“在脏任务描述下稳定修复”。SWE-Fuse 把有 issue 与无 issue 轨迹混训，并用熵感知 RLVR 提升探索质量；在 SWE-bench Verified 上，8B/32B 分别到 43.0%/60.2%，TTS@8 后到 49.8%/65.2%。这说明代码代理训练开始少依赖干净监督，更多依赖测试、调试与轨迹质量控制。

Representative sources

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training — Xin-Cheng Wen; Binbin Chen; Haoxuan Lan; Hang Yu; Peng Di; Cuiyun Gao

Agent 开发进入“可测试、可评测”阶段

另一条清晰主线是把代理开发过程本身工程化。TDAD 将行为规格编译成测试，再反复修 prompt，24 次试验中 v1 编译成功率 92%，隐藏测试通过率 97%。与之相呼应，PostTrainBench 把“自动做后训练”变成受限算力下的公开评测：最佳 agent 加权平均 23.2%，高于 base 的 7.5%，但仍远低于官方 instruction-tuned 的 51.1%。这类工作共同把 agent 从演示推向可量化开发流程。

Representative sources

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications — Tzafrir Rehan
PostTrainBench: Can LLM Agents Automate LLM Post-Training? — Ben Rank; Hardik Bhatnagar; Ameya Prabhu; Shira Eisenberg; Karina Nguyen; Matthias Bethge; …

Agent 安全前移到提示架构与迭代门控

安全不再只谈提示注入，而是前移到系统提示架构与迭代改码过程。Arbiter 将 system prompt 当作软件制品做干扰分析，在三类编码代理上找出 152 个 findings，总成本仅 0.27 美元。SCAFFOLD-CEGIS 则显示多轮 refinement 会悄悄伤安全：GPT-4o 下 43.7% 的迭代链 10 轮后漏洞更多，而完整框架可把潜在安全退化率降到 2.1%，并实现 100% safety monotonicity。

Representative sources

Arbiter: Detecting Interference in LLM Agent System Prompts — Tony Mason
SCAFFOLD-CEGIS: Preventing Latent Security Degradation in LLM-Driven Iterative Code Refinement — Yi Chen; Yun Bian; Haiquan Wang; Shihao Li; Zhe Cui

代理闭环深入测试生成与生产优化

当日还出现一批“代理直接驱动真实执行系统”的证据。Java fuzzing 工作用五智能体流水线自动生成 harness，在 6 个库、7 个目标方法上取得方法定向覆盖率中位数 +26%，并在 12 小时内发现 3 个未报告 bug。Datadog 的自治优化系统则把 LLM 演化、形式化验证、影子流量和热更新串成闭环，把某工作负载吞吐从 7,106 msg/s 提到 26,263 msg/s，提升 270%。这表明代理开始深入测试与生产性能优化。

Representative sources

Coverage-Guided Multi-Agent Harness Generation for Java Library Fuzzing — Nils Loose; Nico Winkel; Kristoffer Hempel; Felix Mächtle; Julian Hans; Thomas Eisenbarth
Closing the verification loop, Part 2: autonomous optimization — chrisra

RL 检索代理与原生 Agent 语言开始冒头

还有一条较新的支线是把 RL 直接用于检索行为本身，而不是只用于回答质量。金融领域的 agentic RAG 训练把 4B 小模型做成检索代理，声称相对 GPT-5.2 答案匹配频率高约 35%，pass@8 提升约 63%。同时，Agentis 这类项目尝试把 prompt、验证、预算与分支执行直接做进语言和版本系统。前者更偏实证性能，后者更偏运行时与语言设计。

Representative sources

rag not lag: rl for fast agentic retrieval — kumama
Agentis – An AI-native programming language where the LLM is the stdlib — ylohnitram

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart