Recoleta Item Note

From Verification to Herding: Exploiting Software's Sparsity of Influence

本文主张把软件测试/验证从“先建模再证明”转向“基于采样的herding（驱赶）”，核心依据是软件常常只受少量关键变量控制。作者提出黑盒优化算法 EZR，并声称在大量软件工程任务上用极少样本就能逼近最优。

software-testingblack-box-optimizationconfiguration-tuningsearch-based-software-engineeringsampling

Summary

核心思想是 sparsity of influence：虽然软件状态空间巨大，但真正决定结果的关键变量往往很少，常见规模可小到 10 个以内，因此不必全面搜索。
作者把测试泛化为一个黑盒优化/搜索问题：不去证明“所有输入都正确”，而是寻找某个输入配置，使系统达到可接受甚至接近理想的目标（文中称 Heaven）。
提出 EZR (Efficient Zero-knowledge Ranker)：先随机采样少量配置，按“距离理想点”的损失排序，把样本分成 BEST 和 REST 两组。
EZR 对每个输入属性做离散化，寻找那些在 BEST 中高频、在 REST 中低频的属性区间，用一个简单的两类贝叶斯式评分来选出“对好结果最有区分力”的规则。
然后用这些高分规则约束新一轮采样，持续把搜索“驱赶”到更优区域。相比 TPE/SMAC 等方法，它避免重建复杂模型，采用增量更新，因此更轻量。

论文最核心的实验结论是：在 MOOT 仓库的 63 个任务 上，EZR 用 32 个样本 即可达到平均 90% optimality（相对参考最优）。
采样预算与性能关系为：8 样本 62%、16 样本 80%、32 样本 90%、64 样本 91%、128 样本 92%；作者强调 32 处出现明显收益拐点。
数据覆盖多类软件工程任务，包含系统配置、性能调优、云部署、Scrum 规划、风险建模、测试用例约简等；输入维度范围从 3–88、到 124，甚至 1000 个决策变量（SPL）。
表 2 中各任务族在 N=32 时的平均 Opt% 约为：系统配置 91%、性能调优 89%、云 92%、Scrum 88%、风险 94%、健康 90%、SPL 85%、金融 93%、人才 89%、安全 91%、销售 87%、控制 95%、测试约简 92%。
论文还声称在与 SMAC、OPTUNA、DEHB、Random、KPP 的比较中，EZR “匹配或优于”这些方法；图 1 说明其统计表现通常不差于 SMAC，但正文未给出统一单一数值胜率表。
速度方面，作者给出的是定性/半定量说法：对全部数据做 20 次运行 时，EZR 在 minutes 内结束，而 SMAC 需要 days，但摘录中没有更精确的绝对时间数字。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.