Recoleta Item Note

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

TiPToP 是一个面向机器人操作的模块化开放词汇规划系统：输入RGB图像和自然语言，输出多步操作轨迹。它把预训练视觉基础模型与GPU加速任务-运动规划结合起来，在零机器人训练数据下完成真实与仿真桌面操作，并在多类任务上达到或超过经过 350 小时特定机体演示微调的 VLA 基线。

robot-manipulationtask-and-motion-planningvision-language-planningopen-vocabularymodular-robotics

Summary

TiPToP 是一个面向机器人操作的模块化开放词汇规划系统：输入RGB图像和自然语言，输出多步操作轨迹。它把预训练视觉基础模型与GPU加速任务-运动规划结合起来，在零机器人训练数据下完成真实与仿真桌面操作，并在多类任务上达到或超过经过 350 小时特定机体演示微调的 VLA 基线。

用一次初始观测（立体 RGB）和语言指令构建场景：深度模型生成稠密深度，抓取模型给出 6-DoF 候选抓取，VLM 检测并命名物体、把语言目标转成符号目标，SAM-2 做分割，再合成为以物体为中心的 3D 场景表示。
规划端使用 GPU 并行的 cuTAMP：先枚举符号计划骨架，再对抓取位姿、放置位姿、关节构型等连续变量进行并行优化，并调用 cuRobo 生成无碰撞轨迹。
执行端使用关节阻抗控制器跟踪规划出的整段轨迹；系统是开环执行，不依赖执行中视觉反馈。
核心机制可以最简单地理解为：先用基础模型“看懂场景和任务”，再用经典规划器“算出一串可行的抓取/放置动作”，而不是直接让大模型端到端输出动作。
模块化设计使其容易替换组件、定位失败来源，并宣称可在支持的平台上1 小时内安装部署，只需相机标定，并可较容易迁移到新机体。

在 28 个桌面操作任务/场景、共 165 次试验 上，TiPToP 总体成功率 98/165 = 59.4%，而 (\pi_{0.5})-DROID 为 55/165 = 33.3%；平均任务进度（Task Progress）分别为 74.6% vs 52.4%。
与基线对比：基线是 (\pi_{0.5})-DROID，其经过 350 小时机体特定演示数据微调；而 TiPToP 使用 零机器人数据。
分类别结果：Simple 任务上二者接近，TiPToP 的任务进度 84.0% vs 79.5%，但成功率 22/40 vs 27/40 略低；Distractor 上 TiPToP 27/45 (60.0%) vs 12/45 (26.7%)，任务进度 71.6% vs 41.1%。
Semantic 任务上 TiPToP 26/40 (65.0%) vs 10/40 (25.0%)，任务进度 71.3% vs 46.8%；文中称 TiPToP 在 8 个语义场景中的 7 个 上成功率更高，而基线有 4 个场景为 0/5。
Multi-step 任务上 TiPToP 23/40 (57.5%) vs 6/40 (15.0%)，任务进度 75.2% vs 52.2%；例如 “Color cubes -> bowl (sim)” 为 9/10 vs 0/10，“Three marbles -> cup” 为 2/5 vs 0/5。
论文还声称系统在 仿真与真实世界 上评测，总计分析了 173 次试验 的失败模式，并展示了在 DROID、UR5e、Trossen WidowX AI 等机体上的部署可行性；不过给定摘录中未提供更细的按模块失败率数字。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.