Recoleta Item Note

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

这篇论文通过分析开源 Agentic AI 项目的真实缺陷，提出了一个关于故障类型、症状和根因的经验性分类体系，并研究这些故障如何跨组件传播。其价值在于为面向智能体系统的调试、可观测性与可靠性工程提供了更系统的基础。

agentic-aifault-taxonomysoftware-debuggingreliability-engineeringempirical-study

Summary

作者从 40 个开源 agentic AI 仓库中收集了 13,602 个已关闭 issue 和合并 PR，并通过分层抽样选出 385 个故障做深入人工分析。
使用 扎根理论（grounded theory），从真实问题描述、日志、堆栈和修复提交中，归纳出三套分类：5 个架构级故障维度、13 个症状类、12 个根因类。
用 Apriori 关联规则挖掘分析“故障类型—症状—根因”之间的高强度共现关系，以发现故障跨组件传播路径。
再通过 145 名开发者的问卷验证该分类是否贴近真实开发经验，并根据反馈检查其完整性与实用性。

论文产出了一个结构化 taxonomy：5 个故障维度、13 个症状类别、12 个根因类别，说明 agentic AI 的失败并非随机，而是可被系统归纳。
在样本中，Runtime and Environment Grounding 相关故障出现 87 次；主要根因包括 Dependency and Integration Failures（19.5%） 和 Data and Type Handling Failures（17.6%）。
关联规则显示明显的跨层传播：例如 认证请求失败 ↔ 脆弱的 token refresh 机制 的关联强度 lift = 181.5；错误时间值 ↔ 不当 datetime 转换 的 lift = 121.0。
开发者验证结果较强：taxonomy 的代表性平均评分为 3.97/5，内部一致性 Cronbach's α = 0.904（文中另一处约为 0.91），且 83.8% 的受访者表示其覆盖了自己遇到的故障。
调查中 74.5% 的评分达到 4 分及以上，表明大多数类别被认为具有现实相关性。
论文没有报告与既有方法在统一基准上的“性能提升”式结果；其最强主张是：首次以大规模开源证据和开发者验证，建立了可用于诊断 agentic AI 故障的组件化分类与传播模式。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.