Recoleta Item Note

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

AOR提出一种不训练神经策略、也不依赖示范或奖励设计的机器人学习方式：让多模态LLM在每次失败后直接重写可执行的Python控制器代码。核心贡献是把“完整低层控制器实现”而不是技能选择器或参数，作为上下文学习的对象，从而让模型能基于视觉证据诊断并修复失败原因。

robot-manipulationmultimodal-llmcode-synthesisin-context-learningvision-language-action

Summary

AOR采用双时间尺度闭环：回合内由Python控制器实时执行；回合间由多模态LLM查看关键帧图像和结构化结果，分析失败后生成一个新的控制器类。
策略表示不是参数或技能库，而是完整可执行Python代码，因此LLM不仅能改“做什么”，还能改“怎么做”，包括阶段结构、几何计算、状态机逻辑和控制细节。
输入给LLM的上下文包括：当前控制器源码、回合奖励/步数/阶段日志/最小距离/振荡标记，以及关键帧图像；提示其先回答失败模式、根因位置（视觉/逻辑/参数）、最重要修改，再输出代码。
为避免代码生成失控，系统加入编译沙箱、动作clamp、异常安全停止、失败回退到上一个可用控制器等机制。
在robosuite实例中，AOR自主发现并修复了一些关键问题，如OpenGL相机坐标约定导致的反投影符号错误、抓取时应保持末端静止、以及使用EMA平滑动作等。

论文声称在3个robosuite manipulation任务上验证AOR，并报告2个任务达到100%成功率，另1个任务达到91%成功率。
摘要明确强调这些结果是在无 demonstrations、无 reward engineering、无 gradient updates条件下取得的。
作者称残余失败主要出现在Stack任务：LLM已识别出“夹爪与目标方块接触”是原因，但尚未找到避免该接触的放置策略，因此停留在**91%**而非100%。
文中给出与相关工作的若干数字化背景对比，但不是AOR自身实验：如Reflexion在AlfWorld上**+22%、HumanEval上+11%；ReAct在AlfWorld上较RL/模仿基线+34%绝对提升**；OpenVLA相对RT-2-X(55B)经LoRA微调**+16.5%；Diffusion Policy在12任务上优于先前方法46.9%**。这些数字用于定位AOR，而非直接实验对比。
提供的摘录未给出更细的AOR实验表格信息，如每个任务名称对应的精确样本数、trial数、方差、或逐基线对照。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.