Recoleta Item Note

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

本文提出 SaiVLA-0，一种面向机器人 Vision-Language-Action 的“大小脑分工”三部件架构，把高层语义理解与高速低层控制解耦，并显式围绕算力与时延进行设计。该工作更像概念与协议论文，但给出了初步 LIBERO 证据，显示特征缓存与模块化控制在训练效率和成功率上有潜在收益。

vision-language-actionrobot-foundation-modelcompute-aware-controlhierarchical-policyfeature-cachingdexterous-manipulation

Summary

提出三部件架构：Cerebrum 是冻结的大型 VLM，低频运行，提供稳定的多层语义先验；Pons Adapter 把这些高层特征与当前本体状态结合，压缩成可执行上下文 token；Cerebellum 用 ParaCAT 高频输出动作。
ParaCAT 将每个动作维度离散成 -1/0/+1 三类，并且一次前向并行预测 K=20 步，而不是逐步连续回归；可把它理解为“每个关节只决定下一小步朝正向、停住还是反向”。
采用双频调度：Cerebrum 每 N=5 个控制 chunk 才调用一次，低层控制复用高层语义；这样在尽量不损失任务表现的前提下摊薄大模型成本。
采用两阶段特征缓存训练：Stage A 离线跑冻结 VLM 并缓存多层特征；Stage B 只训练 Pons + Cerebellum。这样减少重复大模型前向，提高训练速度和可复现性。
引入与末端执行器几何绑定的腕部 ROI，从主视角中裁出随手部运动稳定变化的高分辨率局部区域，以补充全局视图中的接触与细粒度姿态信息。

论文明确定位为concept-and-protocol paper with preliminary evidence，因此完整结论性实验仍未覆盖；作者强调会在匹配 GPU/分辨率/batch 的条件下报告 success、latency、SR_cn 等指标。
在 LIBERO 的初步证据中，split feature caching 将训练时间从 7.5h 降到 4.5h，同时把平均成功率从 86.5% 提升到 92.5%；文中说明该比较是在 official N1.5 head-only training 设置下得到的。
文中还声称 SaiVLA-0 在 LIBERO 上达到 99.0% mean success，但摘录中未给出更细的子集拆分、方差、基线对照表或完整实验条件。
体系默认关键配置包括：Cerebrum 调用频率 N=5、单次前向复用 K=20 步、双臂系统动作维度 D=16、主视图 1028×800→256²、双腕部 ROI 各 256²。
论文提出了算力归一化指标 SR_cn = SuccessRate / ComputeBudget，并主张未来比较应同时报告冷启动 Cerebrum 时延、Cerebellum 单步/单前向时延、前向频率 f_fwd 与有效动作频率 f_eff；但摘录中尚无完整定量基准表。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.