Trend brief · 2026-03-08

机器人具身智能转向轻量适配、长时序增强与部署一致性

机器人具身智能的日内论文，集中指向一个主题：让预训练模型更适合真实部署。方法普遍更轻、更模块化，也更强调长时序、杂乱环境与动作一致性。主要观察-适配方式更轻量。LoRA-SP不再用固定秩低秩适配，而是按输入动态选择活跃方向，减少了为不同任务反复调rank的成本。-时序能力开始“插件化”。TempoFit不改骨干参数，直接复用注意力缓存补时间记忆，说明很多VLA的瓶颈已从单步感知转到跨步状态追踪。

5 tracked topics

Embodied AI

embodied-ai vla robotics world-models long-horizon

Source markdown

Overview

Clusters

VLA进入“轻改造、强适配”阶段

当天最强主线是把预训练视觉-语言-动作模型从“能用”推向“更稳可迁移”。一类工作直接改微调容量分配：LoRA-SP 用按样本激活的动态秩替代固定秩，缓解跨任务和跨机器人本体时的容量不足与调参敏感。另一类工作在不重训骨干的前提下补时间记忆：TempoFit 复用中间层 K/V 缓存，让单帧决策模型获得长时序上下文。两者共同指向一个趋势：VLA 不再只拼更大底座，而是通过更轻量、可插拔的机制提升部署适应性。

Representative sources

Adaptive Capacity Allocation for Vision Language Action Fine-tuning — Donghoon Kim; Minji Bae; Unghui Nam; Gyeonghun Kim; Suyun Lee; Kyuhong Shim; …
TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation — Jun Sun; Boyu Yang; Jiahao Zhang; Ning Ma; Chencheng Wu; Siqing Zhang; …

分层与显式场景筛选成为复杂操作突破口

另一条明显趋势是把复杂环境中的操作拆成更清晰的结构。HSC-VLA 用高层规划与场景清理驱动低层扩散策略，在高密度货架杂乱场景中显著提升双臂抓取、放置与协作表现。它说明真实机器人系统正在从单体端到端模型，转向“理解、筛选、执行”分层协同。重点不只是更强感知，而是让模型先忽略无关信息，再做动作。

Representative sources

HSC-VLA: Hierarchical Scene-Clearing for Robust Bimanual Manipulation in Dense Clutter — Zhen Liu; Xinyu Ning; Zhe Hu; XinXin Xie; Yitong Liu; Zhongzhu Pu

世界模型评价重心转向动作一致性与规划可用性

在移动机器人方向，MWM 展示了世界模型研究正在从“生成得像”转向“与动作一致”。其核心是围绕 rollout 一致性进行后训练和蒸馏，让少步扩散推理也能支撑规划。这个变化很关键，因为导航和控制更依赖 imagined trajectory 是否可信，而不是单帧图像是否逼真。

Representative sources

MWM: Mobile World Models for Action-Conditioned Consistent Prediction — Han Yan; Zishang Xiang; Zeyu Zhang; Hao Tang

部署导向的系统观在机器人研究中升温

当天还有一篇水下机器人综述，虽然没有新实验，但它提供了一个更宏观的信号：具身智能研究正在强调部署约束的内生化。该文把水动力不确定性、部分可观测、通信受限和能耗视为耦合问题，而非独立模块指标。这与机器人论文中的共同取向一致：研究目标从离线基准最优，转向真实环境下的闭环稳健性。

Representative sources

Underwater Embodied Intelligence for Autonomous Robots: A Constraint-Coupled Perspective on Planning, Control, and Deployment — Jingzehua Xu; Guanwen Xie; Jiwei Tang; Shuai Zhang; Xiaofan Li

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart