---
kind: trend
trend_doc_id: 69
granularity: day
period_start: '2026-03-08T00:00:00'
period_end: '2026-03-09T00:00:00'
topics:
- embodied-ai
- vla
- robotics
- world-models
- long-horizon
run_id: materialize-outputs
aliases:
- recoleta-trend-69
tags:
- recoleta/trend
- topic/embodied-ai
- topic/vla
- topic/robotics
- topic/world-models
- topic/long-horizon
language_code: zh-CN
---

# 机器人具身智能转向轻量适配、长时序增强与部署一致性

## Overview
机器人具身智能的日内论文，集中指向一个主题：让预训练模型更适合真实部署。方法普遍更轻、更模块化，也更强调长时序、杂乱环境与动作一致性。主要观察-适配方式更轻量。LoRA-SP不再用固定秩低秩适配，而是按输入动态选择活跃方向，减少了为不同任务反复调rank的成本。-时序能力开始“插件化”。TempoFit不改骨干参数，直接复用注意力缓存补时间记忆，说明很多VLA的瓶颈已从单步感知转到跨步状态追踪。

## Clusters

### VLA进入“轻改造、强适配”阶段

当天最强主线是把预训练视觉-语言-动作模型从“能用”推向“更稳可迁移”。一类工作直接改微调容量分配：LoRA-SP 用按样本激活的动态秩替代固定秩，缓解跨任务和跨机器人本体时的容量不足与调参敏感。另一类工作在不重训骨干的前提下补时间记忆：TempoFit 复用中间层 K/V 缓存，让单帧决策模型获得长时序上下文。两者共同指向一个趋势：VLA 不再只拼更大底座，而是通过更轻量、可插拔的机制提升部署适应性。

#### Representative sources
- [Adaptive Capacity Allocation for Vision Language Action Fine-tuning](../Inbox/2026-03-08--adaptive-capacity-allocation-for-vision-language-action-fine-tuning.md) — Donghoon Kim; Minji Bae; Unghui Nam; Gyeonghun Kim; Suyun Lee; Kyuhong Shim; …
- [TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation](../Inbox/2026-03-08--tempofit-plug-and-play-layer-wise-temporal-kv-memory-for-long-horizon-vision-language-action-manipulation.md) — Jun Sun; Boyu Yang; Jiahao Zhang; Ning Ma; Chencheng Wu; Siqing Zhang; …


### 分层与显式场景筛选成为复杂操作突破口

另一条明显趋势是把复杂环境中的操作拆成更清晰的结构。HSC-VLA 用高层规划与场景清理驱动低层扩散策略，在高密度货架杂乱场景中显著提升双臂抓取、放置与协作表现。它说明真实机器人系统正在从单体端到端模型，转向“理解、筛选、执行”分层协同。重点不只是更强感知，而是让模型先忽略无关信息，再做动作。

#### Representative sources
- [HSC-VLA: Hierarchical Scene-Clearing for Robust Bimanual Manipulation in Dense Clutter](../Inbox/2026-03-08--hsc-vla-hierarchical-scene-clearing-for-robust-bimanual-manipulation-in-dense-clutter.md) — Zhen Liu; Xinyu Ning; Zhe Hu; XinXin Xie; Yitong Liu; Zhongzhu Pu


### 世界模型评价重心转向动作一致性与规划可用性

在移动机器人方向，MWM 展示了世界模型研究正在从“生成得像”转向“与动作一致”。其核心是围绕 rollout 一致性进行后训练和蒸馏，让少步扩散推理也能支撑规划。这个变化很关键，因为导航和控制更依赖 imagined trajectory 是否可信，而不是单帧图像是否逼真。

#### Representative sources
- [MWM: Mobile World Models for Action-Conditioned Consistent Prediction](../Inbox/2026-03-08--mwm-mobile-world-models-for-action-conditioned-consistent-prediction.md) — Han Yan; Zishang Xiang; Zeyu Zhang; Hao Tang


### 部署导向的系统观在机器人研究中升温

当天还有一篇水下机器人综述，虽然没有新实验，但它提供了一个更宏观的信号：具身智能研究正在强调部署约束的内生化。该文把水动力不确定性、部分可观测、通信受限和能耗视为耦合问题，而非独立模块指标。这与机器人论文中的共同取向一致：研究目标从离线基准最优，转向真实环境下的闭环稳健性。

#### Representative sources
- [Underwater Embodied Intelligence for Autonomous Robots: A Constraint-Coupled Perspective on Planning, Control, and Deployment](../Inbox/2026-03-08--underwater-embodied-intelligence-for-autonomous-robots-a-constraint-coupled-perspective-on-planning-control-and-deployment.md) — Jingzehua Xu; Guanwen Xie; Jiwei Tang; Shuai Zhang; Xiaofan Li