Trend brief · 2026-03-05

软件代理从任务增强走向执行闭环与领域可靠性

今天的软件代理研究，明显从会写代码走向会准备任务、会搭环境、会长期运行。亮点不只在模型能力，而在前处理、执行闭环和工程约束。主要观察-任务输入正在成为核心杠杆。CodeScout表明，先对仓库做小范围预探索，再补全复现步骤、期望行为和修复提示，可以明显提升真实缺陷修复表现。相比直接让代理开工，这种前置增强更稳。-可执行环境自动化正在补齐短板。

6 tracked topics

Software Intelligence

software-agents coding-agents terminal-agents tool-creation repo-automation domain-agents

Source markdown

Overview

Clusters

先增强问题，再执行修复

代码代理开始把重点从“更强模型”转向“更好任务输入”。CodeScout先对仓库做轻量预探索，再把含糊需求改写成可执行的问题陈述，直接减少盲目搜索和重复修复。该方向强调先澄清任务，再让代理动手。

Representative sources

CodeScout: Contextual Problem Statement Enhancement for Software Agents — Manan Suri; Xiangci Li; Mehdi Shojaie; Songyang Han; Chao-Chun Hsu; Shweta Garg; …

代码代理向真实仓库执行环境下沉

另一条主线是把“让仓库跑起来”本身自动化。RepoLaunch面向多语言、多平台处理依赖、编译和测试，并把成功经验沉淀为可重建脚本。这说明软件代理的落点正从单点补丁，扩展到完整工程环境。

Representative sources

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform — Kenan Li; Rongzhi Li; Linghao Zhang; Qirui Jin; Liao Zhu; Xiaosong Huang; …

终端原生代理进入工程化阶段

终端原生代理持续升温，但讨论焦点更偏系统设计而非单一榜单。OpenDev总结了计划与执行分离、惰性工具发现、自适应上下文压缩和多层安全护栏，反映出社区正在把CLI代理当作长期运行的软件系统来构建。

Representative sources

Building Effective AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned — Nghi D. Q. Bui

基准开始检验代理的造工具能力

评测重点也在升级。Tool-Genesis不再假设工具接口已知，而是测试代理能否从抽象需求中自行设计并实现工具。结果显示，一次生成很脆弱，闭环修复显著更有效。这把研究重心从会调用工具，推进到会造工具、会修工具。

Representative sources

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent — Bowei Xia; Mengkang Hu; Shijian Wang; Jiarui Jin; Wenxiang Jiao; Yuan Lu; …

领域代理靠检索与验证拿到高可靠性

领域专用代理仍是高确定性价值区。MOOSEnger把检索增强生成与确定性语法预检查、运行时验证结合，在多物理场配置生成上把可执行率从很低的通用基线大幅拉高。趋势是，高风险、高规则密度任务，更适合通用代理底座加领域校验器。

Representative sources

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem — Mengnan Li; Jason Miller; Zachary Prince; Alexander Lindsay; Cody Permann

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart