支持执行期视觉重查的机器人推理中间件
可构建面向仓储拣选、实验室自动化和产线换型单元的VLA执行中间件:允许策略在执行中发起局部视觉重查,并把这类重查与动作控制、状态说明放到统一推理调度里。它不是训练新基础模型,而是补足现有VLA上线时最缺的“执行期再观察+多任务调度”层。
主动感知已经从概念变成可量化收益,且部署侧首次给出单GPU并行运行的具体系统方案,因此现在适合做模型无关的执行层产品,而不是继续等待下一代更大模型。
过去CoT增强VLA大多还是一次看图、主要在语言空间推理;现在VLA-Thinker已证明图像可在推理过程中被再次调用并带来稳定增益。同时OxyGen表明,多任务并行落地的关键约束已不是模型接口而是KV共享与跨帧调度。
选一个已有OpenVLA或π0.5部署场景,记录100次以上长时程任务失败原因;先不改底模,只接入裁剪重查API与共享KV调度,验证是否能把“看错后继续错下去”的失败占比降低,并测量在单卡上的控制频率损失是否可接受。
- VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning: VLA-Thinker显示把视觉重访写进推理轨迹后,LIBERO Long提升10.4个百分点,说明长时程失败常来自中途消歧与纠错能力不足。
- OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism: OxyGen证明同一观测下动作与语言/规划并行的主要瓶颈已转到推理栈,单卡可在不降动作质量前提下实现最高3.7×加速。