Recoleta Item Note

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

该论文研究如何把开源视觉-语言-动作（VLA）策略迁移到真实温室中的草莓采摘任务，并在极少真实数据下实现端到端闭环采摘。核心结论是：多视角RGB输入加少于4小时示教微调，已经能让VLA在真实、遮挡严重、接触敏感的农业场景中取得可用表现。

vision-language-actionrobot-harvestingsim2realpolicy-adaptationmultiview-rgb

Summary

构建了一个端到端闭环系统：输入为三路RGB视角（左右固定相机+腕部相机）、机器人状态和语言指令，输出为8维动作（7维机械臂速度控制 + 1个吸/放/空闲泵指令）。
刻意不使用深度、点云和显式几何标定，让VLA直接从视觉和语言到动作，减少任务特定工程依赖。
采集了3.71小时 VR遥操作示教，共227个episode、491次有效采摘尝试，保留失败-恢复片段，以更贴近闭环部署分布。
在统一数据与训练预算下微调三个开源VLA：pi0、pi0.5、wall-oss，比较全量微调与LoRA两种适配方式。
在部署上提出异步推理-控制解耦：推理线程分块产生活动作队列，30 Hz实时控制线程持续执行，以减少因推理延迟带来的抖动和错过接触窗口。

论文声称这是首个将VLA迁移到真实温室桌面草莓采摘的系统性研究，并在统一50次真实温室试验协议下比较多种模型与适配策略。
最佳结果来自pi0.5 + 全量微调 + 6 epochs：成功率 SR = 74.0%，成功分数 SS = 82.6，周期时间 = 32.6 s/pick，损伤率 DR = 4.1%。
同样在6 epochs下，LoRA版 pi0.5达到SR = 64.0%、SS = 73.6、38.3 s/pick、DR = 3.8%；说明LoRA更省参数，但任务完成率明显低于全量微调。
其他模型在全量微调6 epochs时：pi0为SR 60.0% / 38.4 s / DR 4.2%，wall-oss为SR 68.0% / 46.3 s / DR 3.9%；总体上pi0.5表现最好。
随训练从2到6 epochs增加，所有模型的SR普遍上升、周期时间下降。例如全量微调的pi0.5从30.0% SR / 44.2 s提升到74.0% SR / 32.6 s。
数据与系统规模方面：仅用3.71小时真实数据、227 episodes就实现了“非平凡”的闭环采摘。论文还声称异步部署优于同步部署，但给定摘录中未提供该对比的具体数值。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.