Recoleta Item Note
GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models
GST-VLA提出一种把单目深度和语义特征压缩成3D高斯空间token的VLA框架,并加入可监督的深度感知思维链,以在动作生成前显式推理3D几何。论文声称这种结构比传统2D patch或标量深度表示更适合高精度操作,并在LIBERO和SimplerEnv上取得更高成功率。
Summary
GST-VLA提出一种把单目深度和语义特征压缩成3D高斯空间token的VLA框架,并加入可监督的深度感知思维链,以在动作生成前显式推理3D几何。论文声称这种结构比传统2D patch或标量深度表示更适合高精度操作,并在LIBERO和SimplerEnv上取得更高成功率。
Problem
- 现有VLA通常只用2D图像patch token,缺少显式3D几何、表面朝向和几何置信度,导致精细抓取、插入等高精度任务容易失败。
- 仅加入稠密深度图的方法仍是“每像素一个标量”,不能表达局部表面法向/曲率,也会把token预算平均浪费在无关区域。
- 从视觉到动作的空间推理过程通常完全隐式,缺少可检查、可监督的中间3D理解步骤。
Approach
- 用Gaussian Spatial Tokenizer把冻结的语义patch特征和冻结单目深度转换成3D各向异性高斯原语;每个token包含3D均值残差、3轴协方差和不透明度,分别表达位置细化、表面方向/形状、几何置信度。
- 先从256个raw spatial tokens构造高斯场,再通过learned spatial attention pooling压缩到128个token,把固定token预算集中到几何上更重要的区域。
- 在VLM中加入Depth-Aware Chain-of-Thought,显式生成四类中间空间推理结果:3D目标定位、抓取接触几何、物体间度量距离、粗SE(3)路径点,并把它们作为监督目标训练。
- 在DA-CoT生成时,每层VLM都可交叉注意到未压缩的256个raw Gaussian tokens,从而直接查询细粒度几何区域,而不是只依赖压缩后的表示。
- 动作端使用300M参数的flow-matching专家,通过双重cross-attention同时条件于VLM隐藏状态和DA-CoT输出,预测10步7-DoF delta action chunks。
Results
- 论文声称在LIBERO上达到96.4%成功率,较基线提升+2.0个百分点。
- 在SimplerEnv上达到80.2%,较基线提升**+5.4个百分点**。
- 关键GST组件消融:去掉残差均值(\mu_k)损失1.9个百分点;各向异性改成各向同性协方差损失1.6个百分点;固定不透明度(\alpha=1)损失1.5个百分点;3D Fourier位置编码改成2D learned PE损失2.8个百分点;spatial attention pooling改成平均池化损失2.1个百分点。
- DA-CoT组件消融:去掉3D object grounding (c_1)损失1.9个百分点;去掉SE(3) waypoint thought (c_4)损失2.3个百分点,为四个thought中影响最大。
- 动作专家消融:移除来自DA-CoT action tokens的条件分支损失3.1个百分点;MoE前馈改为单一dense FFN损失1.7个百分点。
- 作者还声称这些收益在高精度任务上更集中,尤其体现在抓取精度、避碰和整体任务成功率,但摘录中未给出更细分的逐任务数字。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.