Trend brief · 2026-03-04

代码智能评测转向真实工程:端到端交付、长期维护与生产监督并进

今天的代码研究热点很集中:评测正在更贴近真实软件工程。论文不再满足于“单题做对”,而是开始检验模型能否交付应用、长期维护代码库,并在真实生产轨迹中被稳定评估。主要观察-从生成代码到交付软件:VibeCodeBench把评测对象升级为完整Web应用。结果很直接:即使头部模型,端到端成功率也还不高。尤其一旦涉及支付、邮件、数据库等外部集成,性能会明显下滑。

8 tracked topics

今天的代码研究热点很集中:评测正在更贴近真实软件工程。论文不再满足于“单题做对”,而是开始检验模型能否交付应用、长期维护代码库,并在真实生产轨迹中被稳定评估。主要观察-从生成代码到交付软件:VibeCodeBench把评测对象升级为完整Web应用。结果很直接:即使头部模型,端到端成功率也还不高。尤其一旦涉及支付、邮件、数据库等外部集成,性能会明显下滑。

端到端软件生成进入更严格评测

代码智能评测正从单点函数题,转向更接近真实工程的整系统任务。Vibe Code Bench测“从需求到部署”的完整Web应用,最强模型也只有61.77%。外部集成一多,表现明显下滑。这个方向说明,行业开始用更贴近生产的任务重新校准“会写代码”与“能交付软件”的差距。

Representative sources

评测焦点从一次性修复转向维护与重构

另一条主线是把“能跑”提升为“能长期维护”。SWE-CI把持续集成式多轮演化纳入评测,关注回归控制和后期稳定性。CodeTaste则把重点放到真实仓库中的大规模重构,显示模型在明确指令下已能执行复杂重构,但若要自主发现像人类那样的重构机会,能力仍很弱。

Representative sources

并发与鲁棒检索成为新薄弱点

研究者开始针对以往基准覆盖不到的难点补洞。CONCUR专测并发代码,使用模型检查发现死锁、竞态和伪并发;CLARC专测C/C++代码检索在匿名化和低级表示下的鲁棒性。共同信号是:不少高分来自表面模式匹配,一旦去掉词法线索或引入复杂执行语义,模型能力会明显暴露短板。

Representative sources

真实世界监督开始进入代码代理评估闭环

除了做题,研究也开始直接利用真实生产轨迹来训练“评审器”。Rubric-Supervised Critic用24个行为rubrics把稀疏、延迟、带噪声的真实结果信号转成可学习监督。结果显示,仅靠benchmark训练的critic迁移到真实环境几乎接近随机,而加入真实轨迹后,可用于重排序、早停和数据筛选。这表明代码代理评估正在从离线分数走向在线运营信号。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer机器人研究转向记忆评测、结构化控制与大规模基准Older世界模型加速转向结构化状态,机器人VLA同步迈向可部署与可修复