---
kind: trend
trend_doc_id: 280
granularity: day
period_start: '2026-03-04T00:00:00'
period_end: '2026-03-05T00:00:00'
topics:
- code-agents
- benchmarking
- software-engineering
- code-generation
- evaluation
- retrieval
- concurrency
- refactoring
run_id: materialize-outputs
aliases:
- recoleta-trend-280
tags:
- recoleta/trend
- topic/code-agents
- topic/benchmarking
- topic/software-engineering
- topic/code-generation
- topic/evaluation
- topic/retrieval
- topic/concurrency
- topic/refactoring
language_code: zh-CN
---

# 代码智能评测转向真实工程：端到端交付、长期维护与生产监督并进

## Overview
今天的代码研究热点很集中：评测正在更贴近真实软件工程。论文不再满足于“单题做对”，而是开始检验模型能否交付应用、长期维护代码库，并在真实生产轨迹中被稳定评估。主要观察-从生成代码到交付软件：VibeCodeBench把评测对象升级为完整Web应用。结果很直接：即使头部模型，端到端成功率也还不高。尤其一旦涉及支付、邮件、数据库等外部集成，性能会明显下滑。

## Clusters

### 端到端软件生成进入更严格评测

代码智能评测正从单点函数题，转向更接近真实工程的整系统任务。Vibe Code Bench测“从需求到部署”的完整Web应用，最强模型也只有61.77%。外部集成一多，表现明显下滑。这个方向说明，行业开始用更贴近生产的任务重新校准“会写代码”与“能交付软件”的差距。

#### Representative sources
- [Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development](../Inbox/2026-03-04--vibe-code-bench-evaluating-ai-models-on-end-to-end-web-application-development.md) — Hung Tran; Langston Nashold; Rayan Krishnan; Antoine Bigeard; Alex Gu


### 评测焦点从一次性修复转向维护与重构

另一条主线是把“能跑”提升为“能长期维护”。SWE-CI把持续集成式多轮演化纳入评测，关注回归控制和后期稳定性。CodeTaste则把重点放到真实仓库中的大规模重构，显示模型在明确指令下已能执行复杂重构，但若要自主发现像人类那样的重构机会，能力仍很弱。

#### Representative sources
- [SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration](../Inbox/2026-03-04--swe-ci-evaluating-agent-capabilities-in-maintaining-codebases-via-continuous-integration.md) — Jialong Chen; Xander Xu; Hu Wei; Chuan Chen; Bing Zhao
- [CodeTaste: Can LLMs Generate Human-Level Code Refactorings?](../Inbox/2026-03-04--codetaste-can-llms-generate-human-level-code-refactorings.md) — Alex Thillen; Niels Mündler; Veselin Raychev; Martin Vechev


### 并发与鲁棒检索成为新薄弱点

研究者开始针对以往基准覆盖不到的难点补洞。CONCUR专测并发代码，使用模型检查发现死锁、竞态和伪并发；CLARC专测C/C++代码检索在匿名化和低级表示下的鲁棒性。共同信号是：不少高分来自表面模式匹配，一旦去掉词法线索或引入复杂执行语义，模型能力会明显暴露短板。

#### Representative sources
- [CONCUR: Benchmarking LLMs for Concurrent Code Generation](../Inbox/2026-03-04--concur-benchmarking-llms-for-concurrent-code-generation.md) — Jue Huang; Tarek Mahmud; Corina Pasareanu; Guowei Yang
- [CLARC: C/C++ Benchmark for Robust Code Search](../Inbox/2026-03-04--clarc-c-c-benchmark-for-robust-code-search.md) — Kaicheng Wang; Liyan Huang; Weike Fang; Weihang Wang


### 真实世界监督开始进入代码代理评估闭环

除了做题，研究也开始直接利用真实生产轨迹来训练“评审器”。Rubric-Supervised Critic用24个行为rubrics把稀疏、延迟、带噪声的真实结果信号转成可学习监督。结果显示，仅靠benchmark训练的critic迁移到真实环境几乎接近随机，而加入真实轨迹后，可用于重排序、早停和数据筛选。这表明代码代理评估正在从离线分数走向在线运营信号。

#### Representative sources
- [A Rubric-Supervised Critic from Sparse Real-World Outcomes](../Inbox/2026-03-04--a-rubric-supervised-critic-from-sparse-real-world-outcomes.md) — Xingyao Wang; Valerie Chen; Heng Ji; Graham Neubig