Recoleta Item Note
RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots
RoboCasa365 是一个面向通用机器人训练与评测的大规模家庭移动操作仿真基准,重点解决“缺少可复现、系统化、大规模 benchmark”的问题。它把任务、场景与演示数据同时扩展到较大规模,并用此分析多任务训练、机器人基础模型训练和终身学习中的关键影响因素。
robot-benchmarksimulation-frameworkgeneralist-robot-policyrobot-foundation-modellifelong-learningmobile-manipulation
Summary
RoboCasa365 是一个面向通用机器人训练与评测的大规模家庭移动操作仿真基准,重点解决“缺少可复现、系统化、大规模 benchmark”的问题。它把任务、场景与演示数据同时扩展到较大规模,并用此分析多任务训练、机器人基础模型训练和终身学习中的关键影响因素。
Problem
- 现有机器人学习很难可靠衡量“离通用家庭机器人还有多远”,因为缺少可复现、系统化、足够大规模的评测基准。
- 真实世界数据收集和评测成本高、噪声大,难以系统研究任务多样性、环境变化、数据规模对泛化的影响。
- 现有仿真框架通常任务少、场景窄、数据规模有限,难以支撑generalist robot policy / robot foundation model 的训练与公平比较。
Approach
- 构建 RoboCasa365:基于 RoboCasa 扩展为 365 个日常任务、2,500 个厨房场景、2,000+ 小时机器人交互数据的仿真框架。
- 任务层面包含 65 个原子任务和 300 个组合任务;组合任务通过 LLM 先生成高层活动和任务蓝图,再人工实现到模拟器中。
- 场景层面使用 50 个真实住宅厨房布局 × 50 种风格 = 2,500 个预训练场景,并与 10 个目标场景分离,用于更严格的泛化评测。
- 数据层面提供 30k 预训练人工演示、25k 目标任务人工演示,并用 MimicGen 在 60 个原子任务上从每任务 100 条种子演示扩展到 10k 条,形成 1615 小时合成数据。
- 基准评测覆盖三类设置:大规模多任务训练、基础模型预训练+微调、终身学习,并比较 Diffusion Policy、pi_0、pi_0.5、GR00T N1.5 等方法。
Results
- 基准规模声明:365 个任务、2,500 个厨房场景、612 小时人工演示 + 1615 小时合成演示;论文称其是首个同时满足“数百任务、数千场景、大规模高质量数据、系统 benchmark”的仿真框架之一。
- 多任务训练(300 个预训练任务,50 个目标任务评测):GR00T N1.5 平均成功率 20.0%,优于 pi_0.5 16.9%、pi_0 15.0%、Diffusion Policy 6.1%。按任务类型,GR00T 在 Atomic / Composite-Seen / Composite-Unseen 上分别为 43.0 / 9.6 / 4.4,显示长时序组合任务和未见任务明显更难。
- 基础模型训练收益:在 50 个目标任务上,GR00T 的“仅目标数据训练”平均成功率从 21.0% / 34.3% / 43.7%(10%/30%/100%目标数据)提升到“预训练+目标微调”的 35.9% / 42.2% / 51.1%。论文明确声称预训练带来约 3× 数据效率提升。
- 未见组合任务收益最明显:Composite-Unseen 上,100% 目标数据时“仅目标训练”为 33.3%,而“预训练+微调”为 42.1%;10% 数据时分别为 11.2% vs 22.7%。
- 原子任务零/低样本迁移较强,组合任务弱:仅预训练时 Atomic 达 41.9%,但 Composite-Seen / Unseen 仅 0.0% / 0.2%,说明预训练知识对短时技能更易迁移,对长时序规划仍不足。
- 终身学习存在明显灾难性遗忘:四阶段训练中,Atomic 成功率从 Phase 1 的 41.5% 降到 Phase 4 的 10.6%;2-3 stage 任务从 24.5% 降到 1.7%,表明随着学习更长时序新任务,旧任务性能持续下降。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.