Recoleta Item Note

AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

本文提出一个面向 AI4S 的低代码平台，把任务规划、代码生成和测试评估拆给三个代理，并用贝叶斯更新来持续改进提示词、测试用例和候选代码。核心目标是降低 LLM 幻觉与多代理误差传播，使较小模型也能更稳定地产生科学代码。

multi-agent-systemsscientific-code-generationbayesian-optimizationlow-code-platformllm-reliability

Summary

提出三代理框架：Task Manager 负责把用户需求拆成可执行计划并生成/更新测试；Solution Generator 生成多份候选代码；Evaluator 对代码、测试和提示整体打分。
用对抗式循环让 TM 像“出题人”一样不断构造更能暴露弱点的测试，SG 像“解题人”一样根据反馈迭代改进代码，从而共同提升质量。
用非 LLM 的贝叶斯更新规则，根据提示对应的历史表现分数 (S_3) 递归选择更好的测试用例与样例代码组合，减少系统对任何单一 LLM 可靠性的依赖。
为了避免每轮都执行所有候选代码的高成本，使用基于 AST 结构与代码嵌入的贝叶斯优化来预测未充分测试代码的潜力，优先评估更有希望的候选。
平台支持用户先审阅任务计划并反馈，系统再把高层自然语言需求转成更明确的科学子任务、约束和初始测试，降低非程序员使用门槛。

在 SciCode 上，框架对所有底座模型都带来稳定提升；作者声称开源模型最高相对提升达 87.1%，对应 Qwen3-8B 在 Without Knowledge / Sub 指标上从 13.2 提升到 24.7。
在 SciCode 上，Qwen3-14B + 本框架 在 Without Knowledge / Sub 达到 30.6，与 Qwen3-235B-A22B-Instruct 基线的 30.6 持平，作者据此强调小模型可追平大模型。
论文摘要特别声称：在 ScienceCode/SciCode 基准上，借助该框架，32B 开源模型可击败 235B 模型；表中对应地 Qwen3-32B + Ours 在 Without Knowledge / Sub 为 33.0，高于 Qwen3-235B baseline 的 30.6。
其他 SciCode 例子：GPT-4o 从 24.1/1.5 提升到 37.2/7.7（Without Knowledge 的 Sub/Main），带知识设置下从 33.7/7.7 提升到 40.6/10.8；Claude-sonnet-4 从 31.3/7.7 提升到 42.7/13.8。
在 ScienceAgentBench 上，以 GPT-4o 为底座时，作者声称达到新的 SOTA，尤其是 VER：90.2%（without knowledge） 和 87.3%（with knowledge），显著超过其他方法；文中还称其在 SR 和 CBS 上也处于领先，但截取内容未给出完整对比表数字。
实验设置中，系统默认每轮生成 20 段代码、初始 15 个测试、最少保留 20 个测试，并用采集函数再挑选 5 个代码做进一步评估，表明方法在实践上是面向迭代筛选而非单次生成。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.