---
kind: trend
trend_doc_id: 279
granularity: day
period_start: '2026-03-03T00:00:00'
period_end: '2026-03-04T00:00:00'
topics:
- code-agents
- agent-testing
- software-engineering
- multi-agent
- code-generation
- security
- devtools
run_id: materialize-outputs
aliases:
- recoleta-trend-279
tags:
- recoleta/trend
- topic/code-agents
- topic/agent-testing
- topic/software-engineering
- topic/multi-agent
- topic/code-generation
- topic/security
- topic/devtools
language_code: zh-CN
---

# 代码智能体从“会写”转向“能验证、能协作、能落地”

## Overview
今天的软件工程方向很集中：大家不再只比谁更会写代码，而是开始补齐代码智能体在真实任务、验证闭环和生产落地上的短板。主要观察-评测变难了。BeyondSWE把任务从单仓库局部修复，扩展到跨仓库、领域知识、依赖迁移和从文档生成仓库。结果显示，当前模型在更真实任务上的成功率仍偏低。-验证正在前移。从编译骨架、概率式回归测试，到变更感知的GUI差分测试，研究重点正从“生成答案”转向“证明它没坏”。

## Clusters

### 代码智能体进入更真实的软件工程评测

代码智能体评测开始明显偏离“单仓库修Bug”这一舒适区。BeyondSWE把任务扩展到跨仓库、领域知识、依赖迁移和从文档生成仓库，显示当前最佳平均表现仅约41.82%，远低于传统SWE基准常见的80%+。SearchSWE也说明，外部搜索不是稳定增益，搜索与编码仍未真正打通。

#### Representative sources
- [BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?](../Inbox/2026-03-03--beyondswe-can-current-code-agent-survive-beyond-single-repo-bug-fixing.md) — Guoxin Chen; Fanzhe Meng; Jiale Zhao; Minghao Li; Daixuan Cheng; Huatong Song; …


### 验证闭环成为代理开发主战场

本期多篇工作把重心放在“先让系统可验证，再让生成变强”。His2Trans先恢复构建上下文并搭好可编译骨架，再逐步翻译函数；AgentAssay把非确定性代理测试改成带统计保证的概率式回归测试；RippleGUItester则围绕代码变更做差分式GUI探索测试。共同信号是：验证、编译与回归检测正在成为代理开发的核心基础设施。

#### Representative sources
- [His2Trans: A Skeleton First Framework for Self Evolving C to Rust Translation with Historical Retrieval](../Inbox/2026-03-03--his2trans-a-skeleton-first-framework-for-self-evolving-c-to-rust-translation-with-historical-retrieval.md) — Shengbo Wang; Mingwei Liu; Guangsheng Ou; Yuwen Chen; Zike Li; Yanlin Wang; …
- [AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows](../Inbox/2026-03-03--agentassay-token-efficient-regression-testing-for-non-deterministic-ai-agent-workflows.md) — Varun Pratap Bhardwaj
- [RippleGUItester: Change-Aware Exploratory Testing](../Inbox/2026-03-03--rippleguitester-change-aware-exploratory-testing.md) — Yanqi Su; Michael Pradel; Chunyang Chen


### 多模型编程从堆流程转向优化交互顺序

在代码生成环节，复杂流程不一定更好。Review Beats Planning发现，双模型协作中“先审查再修复”优于“先规划再编码”，在HumanEval+上达到90.2% pass@1，而plan-then-code反而低于代码模型基线。这说明多模型系统设计开始从“多一步就更强”转向“交互顺序是否正确”。

#### Representative sources
- [Review Beats Planning: Dual-Model Interaction Patterns for Code Synthesis](../Inbox/2026-03-03--review-beats-planning-dual-model-interaction-patterns-for-code-synthesis.md) — Jan Miller


### 代理落地转向环境隔离、权限控制与远程执行

工程实践文章与系统架构工作都在强调，代理要落地，必须有隔离执行环境、稳定权限边界和更快的验证基础设施。worktree并行开发、远程Bazel runner、以及基于用户意图的工具级授权，分别对应并发开发、构建验证和安全控制三个落地点。它们大多缺少统一基准，但方向很一致：把代理从“会写”推进到“能安全运行、能持续交付”。

#### Representative sources
- [Closing the Loop – Optimizing the Agentic SDLC](../Inbox/2026-03-03--closing-the-loop-optimizing-the-agentic-sdlc.md) — btraut
- [The missing piece for AI coding agents](../Inbox/2026-03-03--the-missing-piece-for-ai-coding-agents.md) — jshchnz
- [Intent-Based Access Control (IBAC) – FGA for AI Agent Permissions](../Inbox/2026-03-03--intent-based-access-control-ibac-fga-for-ai-agent-permissions.md) — ERROR_0x06
- [REGAL: A Registry-Driven Architecture for Deterministic Grounding of Agentic AI in Enterprise Telemetry](../Inbox/2026-03-03--regal-a-registry-driven-architecture-for-deterministic-grounding-of-agentic-ai-in-enterprise-telemetry.md) — Yuvraj Agrawal