Recoleta Item Note
VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning
VLA-Thinker提出一种“thinking-with-image”范式,让机器人在推理过程中主动再次查看图像,而不是只把视觉当作一次性上下文。该方法面向视觉-语言-动作模型,重点提升长时程操作中的稳健性与成功率。
Summary
VLA-Thinker提出一种“thinking-with-image”范式,让机器人在推理过程中主动再次查看图像,而不是只把视觉当作一次性上下文。该方法面向视觉-语言-动作模型,重点提升长时程操作中的稳健性与成功率。
Problem
- 现有CoT增强的VLA大多仍是文本式推理:图像只编码一次,后续主要在语言空间里“想”,难以持续利用视觉信息。
- 这种静态视觉上下文会削弱模型消歧、跟踪子目标、纠正中间错误的能力,尤其在长时程操作任务中更明显。
- 直接学习从感知到动作的整体映射通常数据需求大、鲁棒性不足,因此需要更强的“先想后做”机制。
Approach
- 核心思想是把视觉感知当成一种可调用的推理动作:模型在思考过程中可调用视觉工具,获取任务相关的局部图像,再继续推理并输出动作。
- 论文将过程形式化为交错的文本推理 steps + tool invocation + returned visual evidence + action轨迹,而不是一次看图后直接出动作。
- 当前实现使用一种代表性视觉工具 ZOOM-IN,用于查看指定区域的细节,从而验证“感知-推理-行动交错”这一范式本身是否有效。
- 训练采用两阶段:先用合成的 embodied CoT 数据做 SFT cold start,让模型学会结构化推理与工具使用格式;再用 GRPO 做轨迹级强化学习,用任务是否成功来对完整推理-动作轨迹进行对齐。
- 为构造监督数据,作者用 Qwen3-VL-30B-A3B-Instruct 生成带工具调用的CoT标注,并通过schema检查与时间一致性约束清洗数据。
Results
- 在 LIBERO 上,VLA-Thinker平均成功率达到 97.5%,相比其骨干 OpenVLA-OFT 91.0% 提升 +6.5 个百分点。
- LIBERO分项结果:Spatial 98.7 vs 91.6 (+7.1),Object 99.0 vs 95.3 (+3.7),Goal 95.2 vs 90.6 (+4.6),Long 96.9 vs 86.5 (+10.4);长时程子集提升最明显。
- 在 RoboTwin 2.0 的短时程4任务上,平均成功率 62.3%,对比 OpenVLA-OFT 21.3% 提升 +41.0;例如 Lift Pot 64.8 vs 10.1,Beat Hammer Block 82.5 vs 28.1。
- RoboTwin 2.0 中时程4任务平均 70.7%,对比 47.1% 提升 +23.6;例如 Move Can Pot 61.0 vs 28.1,Place Empty Cup 92.7 vs 77.3,Handover Mic 89.9 vs 45.3。
- RoboTwin 2.0 长/超长时程4任务平均 64.6%,对比 46.5% 提升 +18.1;例如 Handover Block 52.8 vs 33.1,Stack Bowls Two 71.1 vs 40.6,Blocks Rank RGB 79.3 vs 70.2,Put Bottles Dustbin 55.4 vs 42.2。
- 作者还声称该方法是首个支持thinking-with-image reasoning的VLA模型,并且仅用单视角图像输入(相较官方OpenVLA-OFT少用腕部相机)仍取得更优表现。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.