代码代理走向可验证闭环,安全审计与研发自动化同步升温
今天的材料很集中。核心不是“Agent更多了”,而是“Agent更像工程系统了”。训练、验证、安全和上线开始被接成闭环。最强信号来自软件工程代理。SWE-Fuse不再把issue文本当成唯一入口,而是显式训练“没有靠谱issue也能靠测试和调试找问题”的能力。这种弱监督思路很务实,也更贴近真实仓库。它在SWE-benchVerified上把32B开源模型推到60.
Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1