代码代理闭环继续深化
ContinuingHistory
相较 代码代理进入真实工程闭环 (2026-W10) 围绕 RAIM、BeyondSWE、Echo 展开的“仓库级闭环”,本周这条主线继续加强,但重心从仓库执行扩展到训练与发布过程本身。SWE-Fuse 在 SWE-bench Verified 上把 32B 开源模型推到 60.2%,说明提升越来越来自轨迹设计与弱监督修复训练。随后…Read full rationaleCollapse
相较 代码代理进入真实工程闭环 (2026-W10) 围绕 RAIM、BeyondSWE、Echo 展开的“仓库级闭环”,本周这条主线继续加强,但重心从仓库执行扩展到训练与发布过程本身。SWE-Fuse 在 SWE-bench Verified 上把 32B 开源模型推到 60.2%,说明提升越来越来自轨迹设计与弱监督修复训练。随后 Understanding by Reconstruction 把需求、规划、读取、编写和调试轨迹用于继续预训练,ExecVerify 又把可验证步骤奖励接入代码执行推理。到周末,LLM-Augmented Release Intelligence 已在 60+ tasks、20+ pipelines 的平台中减少 40–60% 提交输入量,显示闭环已从修 bug 向发布协作延伸。