Recoleta Item Note

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

GST-VLA提出一种把单目深度和语义特征压缩成3D高斯空间token的VLA框架，并加入可监督的深度感知思维链，以在动作生成前显式推理3D几何。论文声称这种结构比传统2D patch或标量深度表示更适合高精度操作，并在LIBERO和SimplerEnv上取得更高成功率。

vision-language-action3d-representationdepth-aware-reasoningrobot-manipulationgaussian-tokens

Summary

用Gaussian Spatial Tokenizer把冻结的语义patch特征和冻结单目深度转换成3D各向异性高斯原语；每个token包含3D均值残差、3轴协方差和不透明度，分别表达位置细化、表面方向/形状、几何置信度。
先从256个raw spatial tokens构造高斯场，再通过learned spatial attention pooling压缩到128个token，把固定token预算集中到几何上更重要的区域。
在VLM中加入Depth-Aware Chain-of-Thought，显式生成四类中间空间推理结果：3D目标定位、抓取接触几何、物体间度量距离、粗SE(3)路径点，并把它们作为监督目标训练。
在DA-CoT生成时，每层VLM都可交叉注意到未压缩的256个raw Gaussian tokens，从而直接查询细粒度几何区域，而不是只依赖压缩后的表示。
动作端使用300M参数的flow-matching专家，通过双重cross-attention同时条件于VLM隐藏状态和DA-CoT输出，预测10步7-DoF delta action chunks。

论文声称在LIBERO上达到96.4%成功率，较基线提升+2.0个百分点。
在SimplerEnv上达到80.2%，较基线提升**+5.4个百分点**。
关键GST组件消融：去掉残差均值(\mu_k)损失1.9个百分点；各向异性改成各向同性协方差损失1.6个百分点；固定不透明度(\alpha=1)损失1.5个百分点；3D Fourier位置编码改成2D learned PE损失2.8个百分点；spatial attention pooling改成平均池化损失2.1个百分点。
DA-CoT组件消融：去掉3D object grounding (c_1)损失1.9个百分点；去掉SE(3) waypoint thought (c_4)损失2.3个百分点，为四个thought中影响最大。
动作专家消融：移除来自DA-CoT action tokens的条件分支损失3.1个百分点；MoE前馈改为单一dense FFN损失1.7个百分点。
作者还声称这些收益在高精度任务上更集中，尤其体现在抓取精度、避碰和整体任务成功率，但摘录中未给出更细分的逐任务数字。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.