Recoleta Item Note

CodeScout: Contextual Problem Statement Enhancement for Software Agents

CodeScout通过在软件代理真正开始修复前，先对代码仓库做轻量级预探索，把含糊的问题描述改写成更完整、可执行的任务说明。它是一个可插拔的前处理层，不需要改动现有agent框架，却能显著提升真实软件缺陷修复表现。

software-agentscode-intelligenceproblem-statement-augmentationswebenchrepository-analysis

Summary

CodeScout的核心机制很简单：先“看懂仓库和问题”，再把原始问题重写成更好的问题说明，让下游agent少走弯路。
它先用AST构建仓库知识图谱，表示类、函数、导入、依赖和作用域等结构关系。
然后做高层scoping：让LLM根据原始问题和知识图谱挑出最多15个最相关的代码目标，而不是直接全仓库乱搜。
接着对这些目标做细粒度分析，提取它们与问题的关系、可能修改位置、技术线索、替代性根因假设，并用相关性过滤去掉噪声。
最后把原始问题与筛选后的洞察合成为增强版问题陈述，显式加入增强描述、复现步骤、期望行为、探索提示和修复提示；这一流程无需修改SWE-agent、OpenHands等底层scaffold。

在SWEBench-Verified上，论文声称CodeScout相对默认方法把resolution rate提升约20%，最多可额外解决27个issue。
在SWE-Agent消融实验中，已解决问题数从Default的114/194/183提升到125/209/207，分别对应DeepSeek R1 +11（+9.6%）、GPT-5-mini +15（+7.7%）、Qwen3 Coder +24（+13.1%）。
让agent在执行轨迹中自行做增强反而更差：109/177/158，相比Default分别为-5、-17、-25，说明“独立预探索”比“边做边补充说明”有效得多。
去掉相关性过滤后，收益明显变弱：116/190/190；用BM25替代LLM scoping时为119/195/198，虽优于Default但弱于完整CodeScout，表明语义scoping和过滤都关键。
交叉合成实验显示强增强器可显著抬升弱运行模型：当DeepSeek R1作为runtime agent时，默认108，若由Qwen3 Coder做问题增强可到164，增加+56（+51.9%）；而强runtime模型GPT-5-mini从194提升到196/207/209，增益较小但仍稳健。
论文还声称增强后文件级和函数级localization均优于默认设置，尤其对较弱模型更明显；成本/token分析表明Qwen3和DeepSeek在相同token预算下通常能解决更多问题，但文中未在摘录里给出完整统一数值表。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.