Trend brief · 2026-03-04

代码智能评测转向真实工程：端到端交付、长期维护与生产监督并进

今天的代码研究热点很集中：评测正在更贴近真实软件工程。论文不再满足于“单题做对”，而是开始检验模型能否交付应用、长期维护代码库，并在真实生产轨迹中被稳定评估。主要观察-从生成代码到交付软件：VibeCodeBench把评测对象升级为完整Web应用。结果很直接：即使头部模型，端到端成功率也还不高。尤其一旦涉及支付、邮件、数据库等外部集成，性能会明显下滑。

8 tracked topics

Software Intelligence

code-agents benchmarking software-engineering code-generation evaluation retrieval concurrency refactoring

Source markdown

Overview

Clusters

端到端软件生成进入更严格评测

代码智能评测正从单点函数题，转向更接近真实工程的整系统任务。Vibe Code Bench测“从需求到部署”的完整Web应用，最强模型也只有61.77%。外部集成一多，表现明显下滑。这个方向说明，行业开始用更贴近生产的任务重新校准“会写代码”与“能交付软件”的差距。

Representative sources

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development — Hung Tran; Langston Nashold; Rayan Krishnan; Antoine Bigeard; Alex Gu

评测焦点从一次性修复转向维护与重构

另一条主线是把“能跑”提升为“能长期维护”。SWE-CI把持续集成式多轮演化纳入评测，关注回归控制和后期稳定性。CodeTaste则把重点放到真实仓库中的大规模重构，显示模型在明确指令下已能执行复杂重构，但若要自主发现像人类那样的重构机会，能力仍很弱。

Representative sources

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration — Jialong Chen; Xander Xu; Hu Wei; Chuan Chen; Bing Zhao
CodeTaste: Can LLMs Generate Human-Level Code Refactorings? — Alex Thillen; Niels Mündler; Veselin Raychev; Martin Vechev

并发与鲁棒检索成为新薄弱点

研究者开始针对以往基准覆盖不到的难点补洞。CONCUR专测并发代码，使用模型检查发现死锁、竞态和伪并发；CLARC专测C/C++代码检索在匿名化和低级表示下的鲁棒性。共同信号是：不少高分来自表面模式匹配，一旦去掉词法线索或引入复杂执行语义，模型能力会明显暴露短板。

Representative sources

CONCUR: Benchmarking LLMs for Concurrent Code Generation — Jue Huang; Tarek Mahmud; Corina Pasareanu; Guowei Yang
CLARC: C/C++ Benchmark for Robust Code Search — Kaicheng Wang; Liyan Huang; Weike Fang; Weihang Wang

真实世界监督开始进入代码代理评估闭环

除了做题，研究也开始直接利用真实生产轨迹来训练“评审器”。Rubric-Supervised Critic用24个行为rubrics把稀疏、延迟、带噪声的真实结果信号转成可学习监督。结果显示，仅靠benchmark训练的critic迁移到真实环境几乎接近随机，而加入真实轨迹后，可用于重排序、早停和数据筛选。这表明代码代理评估正在从离线分数走向在线运营信号。

Representative sources

A Rubric-Supervised Critic from Sparse Real-World Outcomes — Xingyao Wang; Valerie Chen; Heng Ji; Graham Neubig

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart