Recoleta Item Note

AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows

AgentAssay提出了一个面向非确定性AI代理工作流的回归测试框架，把传统二元测试改为带统计保证的概率式测试，并重点解决测试成本过高的问题。其核心价值是在保持显著性/功效保证的同时，大幅降低代理回归测试所需的token与运行成本。

ai-agent-testingregression-testingnon-deterministic-systemsbehavioral-fingerprintingsequential-analysis

Summary

AgentAssay提出了一个面向非确定性AI代理工作流的回归测试框架，把传统二元测试改为带统计保证的概率式测试，并重点解决测试成本过高的问题。其核心价值是在保持显著性/功效保证的同时，大幅降低代理回归测试所需的token与运行成本。

论文要解决的是：同一代理在相同输入下会因采样、模型更新、工具波动、上下文变化而产生不同结果，导致传统“单次运行 + 二元通过/失败”的测试方法无法可靠发现回归。
这很重要，因为生产环境中的代理可能在提示词、工具、模型或编排逻辑微调后悄然退化；文中举例称客户支持路由准确率可从 93% 降到 71%，但传统测试与告警都可能漏检。
另一个关键问题是成本：若按固定样本做统计检验，文中估算 50个场景 × 每场景100次试验 = 5,000次代理调用，对前沿模型一次回归检查可能花费 25,000–75,000美元。

核心机制是把测试语义从“是否输出等于期望答案”改为“代理满足某性质的概率是否高于阈值”，并用三值结论 Pass / Fail / Inconclusive 取代硬性的二值结论。
它对同一场景执行多次试验，计算通过率与置信区间；若区间下界高于阈值则Pass，区间上界低于阈值则Fail，否则说明证据不足、判为Inconclusive。
为降低成本，论文提出三种主要的token-efficient手段：behavioral fingerprinting（把执行轨迹压缩成低维行为向量做多变量回归检测）、adaptive budget optimization（根据真实行为方差自适应决定试验次数）、trace-first offline analysis（利用预录制轨迹离线完成覆盖率/契约/变形/变异等测试）。
除统计判定外，框架还补齐了代理测试基础设施：5维覆盖率指标（tool/path/state/boundary/model）、面向prompt/tool/model/context的变异测试算子、适用于多步代理的metamorphic relations、以及用于CI/CD的统计部署闸门。
论文还声称与AgentAssert契约框架集成，使行为契约可作为形式化测试oracle，用于部署前验证代理是否仍满足要求。

综合评测覆盖 5个模型、3个代理场景、7,605次试验，总实验成本为 227美元；模型包括 GPT-5.2、Claude Sonnet 4.6、Mistral-Large-3、Llama-4-Maverick、Phi-4。
论文宣称 SPRT顺序概率比检验 在所有场景中都把试验次数降低了 78%，同时保持相同统计保证。
Behavioral fingerprinting 的回归检测功效达到 86% detection power，而基于二元pass/fail的测试在对应设置下为 0%。
Adaptive budget optimization 对稳定代理可把所需试验数再减少 4–7×。
论文总体声称其token-efficient技术可实现 5–20× cost reduction，并在 trace-first offline analysis 下对四类测试达到 100% cost savings / zero additional token cost。
摘要中还给出整体范围：在保持严格统计保证的前提下，AgentAssay实现 78–100% 成本下降；这是其最核心的突破性结果声明。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.