Trend brief · 2026-03-05

软件代理从任务增强走向执行闭环与领域可靠性

今天的软件代理研究,明显从会写代码走向会准备任务、会搭环境、会长期运行。亮点不只在模型能力,而在前处理、执行闭环和工程约束。主要观察-任务输入正在成为核心杠杆。CodeScout表明,先对仓库做小范围预探索,再补全复现步骤、期望行为和修复提示,可以明显提升真实缺陷修复表现。相比直接让代理开工,这种前置增强更稳。-可执行环境自动化正在补齐短板。

6 tracked topics

今天的软件代理研究,明显从会写代码走向会准备任务、会搭环境、会长期运行。亮点不只在模型能力,而在前处理、执行闭环和工程约束。主要观察-任务输入正在成为核心杠杆。CodeScout表明,先对仓库做小范围预探索,再补全复现步骤、期望行为和修复提示,可以明显提升真实缺陷修复表现。相比直接让代理开工,这种前置增强更稳。-可执行环境自动化正在补齐短板。

先增强问题,再执行修复

代码代理开始把重点从“更强模型”转向“更好任务输入”。CodeScout先对仓库做轻量预探索,再把含糊需求改写成可执行的问题陈述,直接减少盲目搜索和重复修复。该方向强调先澄清任务,再让代理动手。

Representative sources

代码代理向真实仓库执行环境下沉

另一条主线是把“让仓库跑起来”本身自动化。RepoLaunch面向多语言、多平台处理依赖、编译和测试,并把成功经验沉淀为可重建脚本。这说明软件代理的落点正从单点补丁,扩展到完整工程环境。

Representative sources

基准开始检验代理的造工具能力

评测重点也在升级。Tool-Genesis不再假设工具接口已知,而是测试代理能否从抽象需求中自行设计并实现工具。结果显示,一次生成很脆弱,闭环修复显著更有效。这把研究重心从会调用工具,推进到会造工具、会修工具。

Representative sources

领域代理靠检索与验证拿到高可靠性

领域专用代理仍是高确定性价值区。MOOSEnger把检索增强生成与确定性语法预检查、运行时验证结合,在多物理场配置生成上把可执行率从很低的通用基线大幅拉高。趋势是,高风险、高规则密度任务,更适合通用代理底座加领域校验器。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

NewerVLA走向真实部署:按需推理、物理约束与多模态感知同步升温Older机器人研究转向记忆评测、结构化控制与大规模基准