Recoleta Item Note

VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

VLA-Thinker提出一种“thinking-with-image”范式，让机器人在推理过程中主动再次查看图像，而不是只把视觉当作一次性上下文。该方法面向视觉-语言-动作模型，重点提升长时程操作中的稳健性与成功率。

vision-language-actionembodied-reasoningchain-of-thoughttool-userobot-manipulationlong-horizon

Summary

核心思想是把视觉感知当成一种可调用的推理动作：模型在思考过程中可调用视觉工具，获取任务相关的局部图像，再继续推理并输出动作。
论文将过程形式化为交错的文本推理 steps + tool invocation + returned visual evidence + action轨迹，而不是一次看图后直接出动作。
当前实现使用一种代表性视觉工具 ZOOM-IN，用于查看指定区域的细节，从而验证“感知-推理-行动交错”这一范式本身是否有效。
训练采用两阶段：先用合成的 embodied CoT 数据做 SFT cold start，让模型学会结构化推理与工具使用格式；再用 GRPO 做轨迹级强化学习，用任务是否成功来对完整推理-动作轨迹进行对齐。
为构造监督数据，作者用 Qwen3-VL-30B-A3B-Instruct 生成带工具调用的CoT标注，并通过schema检查与时间一致性约束清洗数据。

在 LIBERO 上，VLA-Thinker平均成功率达到 97.5%，相比其骨干 OpenVLA-OFT 91.0% 提升 +6.5 个百分点。
LIBERO分项结果：Spatial 98.7 vs 91.6 (+7.1)，Object 99.0 vs 95.3 (+3.7)，Goal 95.2 vs 90.6 (+4.6)，Long 96.9 vs 86.5 (+10.4)；长时程子集提升最明显。
在 RoboTwin 2.0 的短时程4任务上，平均成功率 62.3%，对比 OpenVLA-OFT 21.3% 提升 +41.0；例如 Lift Pot 64.8 vs 10.1，Beat Hammer Block 82.5 vs 28.1。
RoboTwin 2.0 中时程4任务平均 70.7%，对比 47.1% 提升 +23.6；例如 Move Can Pot 61.0 vs 28.1，Place Empty Cup 92.7 vs 77.3，Handover Mic 89.9 vs 45.3。
RoboTwin 2.0 长/超长时程4任务平均 64.6%，对比 46.5% 提升 +18.1；例如 Handover Block 52.8 vs 33.1，Stack Bowls Two 71.1 vs 40.6，Blocks Rank RGB 79.3 vs 70.2，Put Bottles Dustbin 55.4 vs 42.2。
作者还声称该方法是首个支持thinking-with-image reasoning的VLA模型，并且仅用单视角图像输入（相较官方OpenVLA-OFT少用腕部相机）仍取得更优表现。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.