Recoleta Item Note

Building Effective AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

本文介绍了 OpenDev，一个面向终端的开源 AI 编码代理系统，重点不在提出新算法，而在总结如何把终端代理做得更安全、可扩展、能长期运行。论文的核心价值是把脚手架、运行时编排、上下文工程和安全机制整理成一套可复用的工程蓝图。

Summary

终端原生编码代理虽然更接近开发者真实工作流，但在长时任务中会遇到上下文窗口耗尽、推理质量下降和行为漂移。
这类代理能直接执行 shell、修改文件、运行进程，如果缺少系统化约束，容易产生破坏性操作，因此安全问题比普通 IDE 补全更关键。
代理还需要支持越来越多工具和能力，但把所有工具/说明都塞进提示词会造成prompt 膨胀，影响成本、延迟和效果；这对软件基础模型与自动化软件生产很重要，因为真实软件工程任务往往跨多步、跨会话、跨工具链。

提出 OpenDev：一个终端优先的开源命令行编码代理，采用四层架构（UI、Agent、Tool & Context、Persistence），将构建期的 scaffolding 与运行期的 harness 分离。
使用复合 AI 系统设计：不同工作流/阶段可绑定不同 LLM；同时采用双代理/双模式结构，把只读规划（Plan Mode）与可执行修改（Normal Mode）分开，以降低风险并平衡成本、延迟、能力。
扩展标准 ReAct：在动作前加入显式 thinking 和可选 self-critique 阶段，并把自适应上下文压缩直接嵌入循环，在上下文接近上限时逐步压缩旧观察。
通过条件化提示组装、事件驱动系统提醒、跨会话记忆和惰性工具发现来控制上下文负担：只在相关时注入指令/技能/工具，减少 prompt 冗余并缓解 instruction fade-out。
采用五层纵深防御安全架构：提示级护栏、schema 级工具限制、运行时审批、工具级校验、生命周期 hooks，多层独立拦截危险操作。

论文没有给出明确的定量实验结果或基准分数；摘录中未报告如 SWE-bench、Terminal-Bench、LongCLI-Bench 的准确率、通过率、成本或延迟数字。
最强的具体主张是：OpenDev 提供了一个开源、终端原生、交互式编码代理的系统化技术报告，作者声称这在公开文献中是首次较完整披露此类系统的工程设计。
系统层面的具体产出包括：4 层总体架构、5 个模型角色、6 阶段执行循环、5 层安全机制，以及会话→代理→工作流→LLM 的4 级层次化组织。
作者声称这些机制带来几类工程收益：更好的成本/延迟/能力权衡、更安全的终端执行、更高的上下文效率，以及跨会话积累项目知识；但摘录中未提供可验证的数字对比来证明优于 Claude Code、Aider、OpenHands 或 SWE-Agent。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.