Trend brief · 2026-03-03

代码智能体从“会写”转向“能验证、能协作、能落地”

今天的软件工程方向很集中:大家不再只比谁更会写代码,而是开始补齐代码智能体在真实任务、验证闭环和生产落地上的短板。主要观察-评测变难了。BeyondSWE把任务从单仓库局部修复,扩展到跨仓库、领域知识、依赖迁移和从文档生成仓库。结果显示,当前模型在更真实任务上的成功率仍偏低。-验证正在前移。从编译骨架、概率式回归测试,到变更感知的GUI差分测试,研究重点正从“生成答案”转向“证明它没坏”。

7 tracked topics

今天的软件工程方向很集中:大家不再只比谁更会写代码,而是开始补齐代码智能体在真实任务、验证闭环和生产落地上的短板。主要观察-评测变难了。BeyondSWE把任务从单仓库局部修复,扩展到跨仓库、领域知识、依赖迁移和从文档生成仓库。结果显示,当前模型在更真实任务上的成功率仍偏低。-验证正在前移。从编译骨架、概率式回归测试,到变更感知的GUI差分测试,研究重点正从“生成答案”转向“证明它没坏”。

代码智能体进入更真实的软件工程评测

代码智能体评测开始明显偏离“单仓库修Bug”这一舒适区。BeyondSWE把任务扩展到跨仓库、领域知识、依赖迁移和从文档生成仓库,显示当前最佳平均表现仅约41.82%,远低于传统SWE基准常见的80%+。SearchSWE也说明,外部搜索不是稳定增益,搜索与编码仍未真正打通。

Representative sources

验证闭环成为代理开发主战场

本期多篇工作把重心放在“先让系统可验证,再让生成变强”。His2Trans先恢复构建上下文并搭好可编译骨架,再逐步翻译函数;AgentAssay把非确定性代理测试改成带统计保证的概率式回归测试;RippleGUItester则围绕代码变更做差分式GUI探索测试。共同信号是:验证、编译与回归检测正在成为代理开发的核心基础设施。

Representative sources

多模型编程从堆流程转向优化交互顺序

在代码生成环节,复杂流程不一定更好。Review Beats Planning发现,双模型协作中“先审查再修复”优于“先规划再编码”,在HumanEval+上达到90.2% pass@1,而plan-then-code反而低于代码模型基线。这说明多模型系统设计开始从“多一步就更强”转向“交互顺序是否正确”。

Representative sources

代理落地转向环境隔离、权限控制与远程执行

工程实践文章与系统架构工作都在强调,代理要落地,必须有隔离执行环境、稳定权限边界和更快的验证基础设施。worktree并行开发、远程Bazel runner、以及基于用户意图的工具级授权,分别对应并发开发、构建验证和安全控制三个落地点。它们大多缺少统一基准,但方向很一致:把代理从“会写”推进到“能安全运行、能持续交付”。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer世界模型加速转向结构化状态,机器人VLA同步迈向可部署与可修复OlderVLA走向连续动力学、快速推理与长时程记忆