代码智能体进入更真实的软件工程评测
代码智能体评测开始明显偏离“单仓库修Bug”这一舒适区。BeyondSWE把任务扩展到跨仓库、领域知识、依赖迁移和从文档生成仓库,显示当前最佳平均表现仅约41.82%,远低于传统SWE基准常见的80%+。SearchSWE也说明,外部搜索不是稳定增益,搜索与编码仍未真正打通。
Representative sources
- BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? — Guoxin Chen; Fanzhe Meng; Jiale Zhao; Minghao Li; Daixuan Cheng; Huatong Song; …