Trend brief · 2026-03-03

代码智能体从“会写”转向“能验证、能协作、能落地”

今天的软件工程方向很集中：大家不再只比谁更会写代码，而是开始补齐代码智能体在真实任务、验证闭环和生产落地上的短板。主要观察-评测变难了。BeyondSWE把任务从单仓库局部修复，扩展到跨仓库、领域知识、依赖迁移和从文档生成仓库。结果显示，当前模型在更真实任务上的成功率仍偏低。-验证正在前移。从编译骨架、概率式回归测试，到变更感知的GUI差分测试，研究重点正从“生成答案”转向“证明它没坏”。

7 tracked topics

Software Intelligence

code-agents agent-testing software-engineering multi-agent code-generation security devtools

Source markdown

Overview

Clusters

代码智能体进入更真实的软件工程评测

代码智能体评测开始明显偏离“单仓库修Bug”这一舒适区。BeyondSWE把任务扩展到跨仓库、领域知识、依赖迁移和从文档生成仓库，显示当前最佳平均表现仅约41.82%，远低于传统SWE基准常见的80%+。SearchSWE也说明，外部搜索不是稳定增益，搜索与编码仍未真正打通。

Representative sources

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? — Guoxin Chen; Fanzhe Meng; Jiale Zhao; Minghao Li; Daixuan Cheng; Huatong Song; …

验证闭环成为代理开发主战场

本期多篇工作把重心放在“先让系统可验证，再让生成变强”。His2Trans先恢复构建上下文并搭好可编译骨架，再逐步翻译函数；AgentAssay把非确定性代理测试改成带统计保证的概率式回归测试；RippleGUItester则围绕代码变更做差分式GUI探索测试。共同信号是：验证、编译与回归检测正在成为代理开发的核心基础设施。

Representative sources

His2Trans: A Skeleton First Framework for Self Evolving C to Rust Translation with Historical Retrieval — Shengbo Wang; Mingwei Liu; Guangsheng Ou; Yuwen Chen; Zike Li; Yanlin Wang; …
AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows — Varun Pratap Bhardwaj
RippleGUItester: Change-Aware Exploratory Testing — Yanqi Su; Michael Pradel; Chunyang Chen

多模型编程从堆流程转向优化交互顺序

在代码生成环节，复杂流程不一定更好。Review Beats Planning发现，双模型协作中“先审查再修复”优于“先规划再编码”，在HumanEval+上达到90.2% pass@1，而plan-then-code反而低于代码模型基线。这说明多模型系统设计开始从“多一步就更强”转向“交互顺序是否正确”。

Representative sources

Review Beats Planning: Dual-Model Interaction Patterns for Code Synthesis — Jan Miller

代理落地转向环境隔离、权限控制与远程执行

工程实践文章与系统架构工作都在强调，代理要落地，必须有隔离执行环境、稳定权限边界和更快的验证基础设施。worktree并行开发、远程Bazel runner、以及基于用户意图的工具级授权，分别对应并发开发、构建验证和安全控制三个落地点。它们大多缺少统一基准，但方向很一致：把代理从“会写”推进到“能安全运行、能持续交付”。

Representative sources

Closing the Loop – Optimizing the Agentic SDLC — btraut
The missing piece for AI coding agents — jshchnz
Intent-Based Access Control (IBAC) – FGA for AI Agent Permissions — ERROR_0x06
REGAL: A Registry-Driven Architecture for Deterministic Grounding of Agentic AI in Enterprise Telemetry — Yuvraj Agrawal

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart