Recoleta Item Note

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

本文提出一个面向编码智能体失败分析的可解释性系统，把难以阅读的原始执行轨迹转换为结构化、可操作的解释。核心价值是让技术和非技术用户都能更快定位根因并提出更好的修复方案。

coding-agentsexplainable-aifailure-analysisexecution-tracesdeveloper-tools

Summary

数据与分类：共分析 87 次运行，其中 32 次失败、55 次成功；失败中“迭代改进失败”最多，占 56%（18/32）。
自动分类性能：在 32 个失败样本上达到 82.1% 准确率（26/32）；高置信预测 90.5%（19/21）准确率；与人工标注的 Cohen's κ=0.76。
用户研究：20 名参与者（10 名技术、10 名非技术）中，该系统让用户比原始轨迹 快 2.8× 理解失败，比通用 LLM 解释 快 1.7×（p<0.01）。
技术用户：理解时间从 8.4±2.1 分钟（原始）/ 5.2±1.3（通用 LLM）降到 3.0±0.8；根因识别准确率从 42±15% / 68±12% 提升到 89±8%；修复质量从 2.6/5 / 3.4/5 提升到 4.3/5。
非技术用户：理解时间从 12.8±3.2 / 7.1±1.8 降到 4.2±1.1；根因识别准确率从 18±12% / 52±18% 提升到 76±11%；修复质量从 1.4/5 / 2.8/5 提升到 3.8/5。
主张的突破点是：相较原始轨迹和临时通用 LLM 解释，领域化、结构化、带可视化和建议的 XAI 流水线能显著提高一致性、理解速度、根因判断和修复提案质量。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.