Topic summary

agent-evaluation

2 trends · 2 ideas
Trend briefs
2
Idea briefs
2
Latest
2026-03-10

Trend briefs

2 trends

软件工程代理转向真实评测,证据驱动流程与协议安全同步升温

今天的主线很清楚:代理研究继续向软件工程与企业落地靠拢,但真正升温的不是“更多Agent”,而是“更可评测、更可约束、更可治理”。一个明显变化是,评测开始更像真实工程,而不是只看单一成功率。CR-Bench把代码审查代理放回真实PR场景,强调开发者真正关心的是有用反馈与噪声比例,而不只是多找几个问题。

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

代码代理走向可验证闭环,安全审计与研发自动化同步升温

今天的材料很集中。核心不是“Agent更多了”,而是“Agent更像工程系统了”。训练、验证、安全和上线开始被接成闭环。最强信号来自软件工程代理。SWE-Fuse不再把issue文本当成唯一入口,而是显式训练“没有靠谱issue也能靠测试和调试找问题”的能力。这种弱监督思路很务实,也更贴近真实仓库。它在SWE-benchVerified上把32B开源模型推到60.

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

Idea briefs

2 ideas

软件工程代理转向真实评测,证据驱动流程与协议安全同步升温

基于趋势快照与本地语料核验,本期机会主要集中在五个更具体的方向:一是代码审查代理已被真实PR评测证明存在明显“召回率—噪声”权衡,因此更值得做上线控制层与评论分流,而不是再做泛化审查Agent;二是GUI代理开始具备可落地的自动化回归测试框架,适合产品团队把agent纳入CI式持续测试;三是evidence-first任务构造显示出对新工具和新任务分布更强的泛化潜力,适合沉淀成企业内部训练数据工厂;四是MCP式协议接入正在快速普及,安全…

Opportunities5 opportunities · 6 evidence links

代码代理走向可验证闭环,安全审计与研发自动化同步升温

本期高价值机会集中在“把代码代理纳入现有工程控制面”而不是再做一个更通用的 Agent。最强的 why-now 信号有三类:一是 agent 行为规格开始能被编译成测试并接入 CI,二是 prompt 与多轮改码过程开始能像软件制品一样被审计和门控,三是代理已能直接驱动 fuzzing 这类真实测试基础设施并发现新缺陷。基于本地证据,当前更适合切入安全门控、评测发布网关、测试生成基础设施,而不是泛化“AI 开发平台”。

Opportunities3 opportunities · 6 evidence links