Recoleta Item Note

AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows

AgentAssay提出了一个面向 非确定性AI代理工作流 的回归测试框架,把传统二元测试改为带统计保证的概率式测试,并重点解决测试成本过高的问题。其核心价值是在保持显著性/功效保证的同时,大幅降低代理回归测试所需的token与运行成本。

ai-agent-testingregression-testingnon-deterministic-systemsbehavioral-fingerprintingsequential-analysis

AgentAssay提出了一个面向非确定性AI代理工作流的回归测试框架,把传统二元测试改为带统计保证的概率式测试,并重点解决测试成本过高的问题。其核心价值是在保持显著性/功效保证的同时,大幅降低代理回归测试所需的token与运行成本。

  • 论文要解决的是:同一代理在相同输入下会因采样、模型更新、工具波动、上下文变化而产生不同结果,导致传统“单次运行 + 二元通过/失败”的测试方法无法可靠发现回归。
  • 这很重要,因为生产环境中的代理可能在提示词、工具、模型或编排逻辑微调后悄然退化;文中举例称客户支持路由准确率可从 93% 降到 71%,但传统测试与告警都可能漏检。
  • 另一个关键问题是成本:若按固定样本做统计检验,文中估算 50个场景 × 每场景100次试验 = 5,000次代理调用,对前沿模型一次回归检查可能花费 25,000–75,000美元
  • 核心机制是把测试语义从“是否输出等于期望答案”改为“代理满足某性质的概率是否高于阈值”,并用三值结论 Pass / Fail / Inconclusive 取代硬性的二值结论。
  • 它对同一场景执行多次试验,计算通过率与置信区间;若区间下界高于阈值则Pass,区间上界低于阈值则Fail,否则说明证据不足、判为Inconclusive。
  • 为降低成本,论文提出三种主要的token-efficient手段:behavioral fingerprinting(把执行轨迹压缩成低维行为向量做多变量回归检测)、adaptive budget optimization(根据真实行为方差自适应决定试验次数)、trace-first offline analysis(利用预录制轨迹离线完成覆盖率/契约/变形/变异等测试)。
  • 除统计判定外,框架还补齐了代理测试基础设施:5维覆盖率指标(tool/path/state/boundary/model)、面向prompt/tool/model/context的变异测试算子、适用于多步代理的metamorphic relations、以及用于CI/CD的统计部署闸门
  • 论文还声称与AgentAssert契约框架集成,使行为契约可作为形式化测试oracle,用于部署前验证代理是否仍满足要求。
  • 综合评测覆盖 5个模型、3个代理场景、7,605次试验,总实验成本为 227美元;模型包括 GPT-5.2、Claude Sonnet 4.6、Mistral-Large-3、Llama-4-Maverick、Phi-4
  • 论文宣称 SPRT顺序概率比检验 在所有场景中都把试验次数降低了 78%,同时保持相同统计保证。
  • Behavioral fingerprinting 的回归检测功效达到 86% detection power,而基于二元pass/fail的测试在对应设置下为 0%
  • Adaptive budget optimization 对稳定代理可把所需试验数再减少 4–7×
  • 论文总体声称其token-efficient技术可实现 5–20× cost reduction,并在 trace-first offline analysis 下对四类测试达到 100% cost savings / zero additional token cost
  • 摘要中还给出整体范围:在保持严格统计保证的前提下,AgentAssay实现 78–100% 成本下降;这是其最核心的突破性结果声明。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.