Recoleta Item Note

Anthropic, Do Not A/B Test My Workflow

这篇文章并非学术论文，而是一篇针对 Claude Code 产品实验设计的批评性案例分析。作者认为，对核心工作流进行隐式 A/B 测试会损害专业用户体验，并主张在 AI 开发工具中提供更高透明度、可配置性与可退出机制。

ai-toolingab-testingdeveloper-workflowtransparencyhuman-in-the-loop

Summary

文章采用的是个人经验 + 产品反馈 + 开发者回应的案例分析方式，而不是正式实验研究。
作者观察到 plan mode 输出从较有上下文的计划退化为简短要点列表，随后追问原因，认为系统提示中存在诸如计划限制在 40 行、禁止 context section、优先删除 prose等约束。
文中引用了 Claude Code 工程师在公开讨论中的回应：实验假设是缩短计划能减少 rate-limit 命中，同时保持相近任务结果。
工程师说明测试覆盖“几千名用户”，作者所在分组是最激进变体，即将计划限制为 40 lines。
核心机制可简单理解为：产品团队通过修改 plan-mode prompt 的长度和格式约束，测试更短计划是否能降低资源消耗而不明显伤害任务完成效果。

没有给出正式、系统的量化评估指标（如成功率、任务完成时间、代码质量分数等）；因此这篇文本的证据主要是案例级和叙述性的。
唯一明确的实验参数是：最激进变体把计划限制为 40 行，并移除更多上下文性表述。
工程师声称实验覆盖了几千名用户，说明这不是个体异常，而是较大范围的线上产品实验。
工程师给出的早期结果是：“Early results aren’t showing much impact on rate limits so I’ve ended the experiment.” 即在其观察中，对 rate limits 的改善不明显/没有明显影响，因此实验已结束。
作者的 strongest claim 是：该实验显著恶化了其个人工作流体验，尤其降低了计划可解释性、上下文丰富度和用户信心；但文中未提供可复现数字来量化这种退化。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.