Recoleta Item Note

PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking

PhysiFlow提出了一个面向人形机器人全身控制的物理感知型VLA框架，把视觉-语言语义理解、高频动作生成和稳定跟踪控制拆成三个“脑”协同工作。其目标是在实时推理下实现语义引导的全身协调动作，并提升复杂动态任务中的稳定性与成功率。

vision-language-actionhumanoid-controlflow-matchingwhole-body-controlsim2real

Summary

提出一个multi-brain分层架构：Neocortical Brain负责“做什么+怎么做”的语义-动作意图对齐，Basal Ganglionic Brain负责高频动作块生成，Cerebellar Brain负责物理约束下的稳健跟踪执行。
Neocortical Brain使用基于SigLIP + LoRA的两阶段课程式CVAE，把第一/第三人称视觉和文本压缩为一个256维语义-动作潜变量，训练时借助未来动作，推理时只靠视觉和语言生成意图向量。
Basal Ganglionic Brain用conditional flow matching替代自回归或扩散式逐步生成：以潜变量和机器人状态为条件，10 Hz生成长度为10的动作块，并通过重叠执行实现50 Hz有效控制。
Cerebellar Brain采用teacher-student RL + BC的运动跟踪器，并在后期把跟踪误差反传到flow model进行联合微调，使生成动作更符合真实动力学与跟踪约束。
数据方面，作者在Isaac Lab中结合远程采集、运动回放、场景/物体随机替换，构建用于全身VLA训练的多视角、多任务数据集。

在Neocortical Brain消融中，完整模型优于各删减版本；例如去掉VL对齐后，Retrieval Top-1从0.357降到0.016，Cross-Episode Retrieval从0.859降到0.037，说明语言-潜变量对齐是关键。
去掉课程学习后，Future Shuffle Gap从1.134降到0.001，同时重建指标恶化（如Recon. Prior从0.023变为0.081），表明分阶段训练对学到有效意图表示非常重要。
在动作生成模块基准中，flow matching达到18.65 ms mean latency、2.33 ms per-sample latency，相对DDPM快5.3×、相对AR快126×；同时平滑性指标为total variation 0.0061、jerk 0.0036，接近AR且明显优于DDPM。
在Unitree G1仿真九项任务上，相比LeVERB，PhysiFlow总体成功率从65.0%提升到74.9%。
具体任务上，复杂任务提升明显：Nav. (Long) 31.2→63.6，Nav. & Sit 5.8→18.1，Nav. & Circle 54.5→69.2；常规任务中也有增益，如Stand up 88.6→90.9、Locomotion 97.2→100.0、raise arm 79.1→100.0。
论文还声称在真实Unitree G1上完成了视觉-语言引导的全身协调任务并表现出较强可靠性，但给定摘录中未提供真实机器人定量指标。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.