Recoleta Item Note

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

SWE-CI 是一个面向代码库长期演化维护能力的新基准，不再只看一次性修复是否通过测试，而是评估智能体在持续集成式多轮迭代中能否持续保持代码质量。论文的核心贡献是把“可维护性”变成可测对象，并用真实仓库长期提交历史构造了 100 个任务。

benchmarkcode-maintenancecontinuous-integrationllm-agentssoftware-engineering

Summary

提出 SWE-CI：首个基于 Continuous Integration 循环的仓库级代码维护基准，从真实 GitHub Python 仓库中抽取 base commit → target commit 的长期演化片段。
数据集包含 100 个任务，来自 68 个仓库；每个任务平均跨越 233 天、71 个连续提交，且源码改动至少 500 行（不含测试），强调非平凡长期演化。
设计 Architect–Programmer 双智能体协议：Architect 根据当前代码与目标代码的测试差距，生成不超过 5 条高层增量需求；Programmer 再按需求理解、规划并修改代码，形成最多 20 轮 的 CI 式迭代。
提出两级指标：normalized change 用 �[-1,1]� 区间衡量当前代码相对基线与目标的测试进展/回归；EvoScore 对各轮结果做未来加权平均，用更高权重强调后期迭代表现，从而把长期可维护性纳入评分。
为保证可复现性，论文为样本自动构建 Docker 环境，并加入缺失依赖的自修复流程；最终从 4,923 个仓库筛到 8,311 个候选跨度、再到 1,458 个可运行候选，最终选出前 100 个任务。

论文对 8 家提供商的 18 个模型进行了大规模评测，总消耗超过 100 亿 tokens；结果显示，同一提供商内部新模型通常优于旧模型，说明代码维护能力在持续提升。
在总体表现上，作者声称 Claude Opus 系列在整个观察期内“明显领先”，GLM-5 也表现突出；但正文摘录未给出具体 EvoScore 数值。
在长期维护稳定性方面，大多数模型的 zero-regression rate（全程无回归比例）低于 0.25；只有 两个 Claude-opus 系列模型超过 0.5，表明当前模型普遍仍难以在长期多轮维护中稳定避免回归。
通过调节 EvoScore 的未来权重参数 γ，作者发现不同提供商对“短期收益 vs 长期可维护性”的偏好不同：MiniMax、DeepSeek、GPT 更偏长期收益，Kimi、GLM 更偏短期收益，Qwen、Doubao、Claude 相对稳定。
最强结论是：即便最先进模型在静态修复上已有明显进步，它们在长期、自动化、多轮代码库维护上仍存在显著差距；SWE-CI 能比快照式基准更好地诊断这种差距。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.