Recoleta Item Note

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

本文提出一个面向编码智能体失败分析的可解释性系统,把难以阅读的原始执行轨迹转换为结构化、可操作的解释。核心价值是让技术和非技术用户都能更快定位根因并提出更好的修复方案。

coding-agentsexplainable-aifailure-analysisexecution-tracesdeveloper-tools

本文提出一个面向编码智能体失败分析的可解释性系统,把难以阅读的原始执行轨迹转换为结构化、可操作的解释。核心价值是让技术和非技术用户都能更快定位根因并提出更好的修复方案。

  • LLM 编码智能体经常失败,但失败信息通常埋在冗长、嵌套的原始执行轨迹里,开发者很难快速看懂,更不用说非技术用户。
  • 通用大模型对失败做临时解释时常不稳定、缺乏领域结构、没有可视化上下文,也往往给不出可执行修复建议。
  • 这很重要,因为如果不能高效理解失败原因,就难以调试、部署和提升软件开发中的智能体可靠性。
  • 作者基于 87 次 HumanEval 编码智能体运行中的 32 个真实失败案例,构建了一个面向编码智能体的失败分类体系。
  • 他们用 GPT-4/4.1 的结构化输出做自动标注:从轨迹中抽取特征,再按分类体系预测失败类别、子类和置信度。
  • 系统生成三类解释:执行流程图、自然语言根因说明、以及按失败类别映射的行动建议与反事实分析。
  • 输出既可给人看(HTML + 可视化),也可给系统集成(JSON),支持进入 CI/CD 或监控流程。
  • 数据与分类:共分析 87 次运行,其中 32 次失败、55 次成功;失败中“迭代改进失败”最多,占 56%(18/32)。
  • 自动分类性能:在 32 个失败样本上达到 82.1% 准确率(26/32);高置信预测 90.5%(19/21)准确率;与人工标注的 Cohen's κ=0.76
  • 用户研究:20 名参与者(10 名技术、10 名非技术)中,该系统让用户比原始轨迹 快 2.8× 理解失败,比通用 LLM 解释 快 1.7×p<0.01)。
  • 技术用户:理解时间从 8.4±2.1 分钟(原始)/ 5.2±1.3(通用 LLM)降到 3.0±0.8;根因识别准确率从 42±15% / 68±12% 提升到 89±8%;修复质量从 2.6/5 / 3.4/5 提升到 4.3/5
  • 非技术用户:理解时间从 12.8±3.2 / 7.1±1.8 降到 4.2±1.1;根因识别准确率从 18±12% / 52±18% 提升到 76±11%;修复质量从 1.4/5 / 2.8/5 提升到 3.8/5
  • 主张的突破点是:相较原始轨迹和临时通用 LLM 解释,领域化、结构化、带可视化和建议的 XAI 流水线能显著提高一致性、理解速度、根因判断和修复提案质量。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.