Recoleta Item Note

AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

本文提出一个面向 AI4S 的低代码平台,把任务规划、代码生成和测试评估拆给三个代理,并用贝叶斯更新来持续改进提示词、测试用例和候选代码。核心目标是降低 LLM 幻觉与多代理误差传播,使较小模型也能更稳定地产生科学代码。

multi-agent-systemsscientific-code-generationbayesian-optimizationlow-code-platformllm-reliability

本文提出一个面向 AI4S 的低代码平台,把任务规划、代码生成和测试评估拆给三个代理,并用贝叶斯更新来持续改进提示词、测试用例和候选代码。核心目标是降低 LLM 幻觉与多代理误差传播,使较小模型也能更稳定地产生科学代码。

  • 科学代码生成不仅会出现普通代码错误,还会违反领域约束、物理规律或复杂执行流程要求,因此单次生成和静态单元测试都不够可靠。
  • 多代理系统虽然能分工,但一个代理生成的错误代码或错误测试会传递给下游代理,导致错误被放大而不是被纠正。
  • 领域科学家常用自然语言提出模糊需求,不擅长提示工程,这会让模型更容易误解任务并输出不可信结果。
  • 提出三代理框架:Task Manager 负责把用户需求拆成可执行计划并生成/更新测试;Solution Generator 生成多份候选代码;Evaluator 对代码、测试和提示整体打分。
  • 用对抗式循环让 TM 像“出题人”一样不断构造更能暴露弱点的测试,SG 像“解题人”一样根据反馈迭代改进代码,从而共同提升质量。
  • 用非 LLM 的贝叶斯更新规则,根据提示对应的历史表现分数 (S_3) 递归选择更好的测试用例与样例代码组合,减少系统对任何单一 LLM 可靠性的依赖。
  • 为了避免每轮都执行所有候选代码的高成本,使用基于 AST 结构与代码嵌入的贝叶斯优化来预测未充分测试代码的潜力,优先评估更有希望的候选。
  • 平台支持用户先审阅任务计划并反馈,系统再把高层自然语言需求转成更明确的科学子任务、约束和初始测试,降低非程序员使用门槛。
  • 在 SciCode 上,框架对所有底座模型都带来稳定提升;作者声称开源模型最高相对提升达 87.1%,对应 Qwen3-8BWithout Knowledge / Sub 指标上从 13.2 提升到 24.7
  • 在 SciCode 上,Qwen3-14B + 本框架Without Knowledge / Sub 达到 30.6,与 Qwen3-235B-A22B-Instruct 基线的 30.6 持平,作者据此强调小模型可追平大模型。
  • 论文摘要特别声称:在 ScienceCode/SciCode 基准上,借助该框架,32B 开源模型可击败 235B 模型;表中对应地 Qwen3-32B + OursWithout Knowledge / Sub33.0,高于 Qwen3-235B baseline30.6
  • 其他 SciCode 例子:GPT-4o24.1/1.5 提升到 37.2/7.7(Without Knowledge 的 Sub/Main),带知识设置下从 33.7/7.7 提升到 40.6/10.8Claude-sonnet-431.3/7.7 提升到 42.7/13.8
  • ScienceAgentBench 上,以 GPT-4o 为底座时,作者声称达到新的 SOTA,尤其是 VER90.2%(without knowledge)87.3%(with knowledge),显著超过其他方法;文中还称其在 SRCBS 上也处于领先,但截取内容未给出完整对比表数字。
  • 实验设置中,系统默认每轮生成 20 段代码、初始 15 个测试、最少保留 20 个测试,并用采集函数再挑选 5 个代码做进一步评估,表明方法在实践上是面向迭代筛选而非单次生成。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.