Topic summary

software-agents

2 trends · 1 idea
Trend briefs
2
Idea briefs
1
Latest
2026-03-09

Trend briefs

2 trends

代码代理走向可验证闭环,安全审计与研发自动化同步升温

今天的材料很集中。核心不是“Agent更多了”,而是“Agent更像工程系统了”。训练、验证、安全和上线开始被接成闭环。最强信号来自软件工程代理。SWE-Fuse不再把issue文本当成唯一入口,而是显式训练“没有靠谱issue也能靠测试和调试找问题”的能力。这种弱监督思路很务实,也更贴近真实仓库。它在SWE-benchVerified上把32B开源模型推到60.

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

软件代理从任务增强走向执行闭环与领域可靠性

今天的软件代理研究,明显从会写代码走向会准备任务、会搭环境、会长期运行。亮点不只在模型能力,而在前处理、执行闭环和工程约束。主要观察-任务输入正在成为核心杠杆。CodeScout表明,先对仓库做小范围预探索,再补全复现步骤、期望行为和修复提示,可以明显提升真实缺陷修复表现。相比直接让代理开工,这种前置增强更稳。-可执行环境自动化正在补齐短板。

Idea briefs

1 idea

代码代理走向可验证闭环,安全审计与研发自动化同步升温

本期高价值机会集中在“把代码代理纳入现有工程控制面”而不是再做一个更通用的 Agent。最强的 why-now 信号有三类:一是 agent 行为规格开始能被编译成测试并接入 CI,二是 prompt 与多轮改码过程开始能像软件制品一样被审计和门控,三是代理已能直接驱动 fuzzing 这类真实测试基础设施并发现新缺陷。基于本地证据,当前更适合切入安全门控、评测发布网关、测试生成基础设施,而不是泛化“AI 开发平台”。

Opportunities3 opportunities · 6 evidence links