Recoleta Item Note

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

该论文研究如何把开源视觉-语言-动作(VLA)策略迁移到真实温室中的草莓采摘任务,并在极少真实数据下实现端到端闭环采摘。核心结论是:多视角RGB输入加少于4小时示教微调,已经能让VLA在真实、遮挡严重、接触敏感的农业场景中取得可用表现。

vision-language-actionrobot-harvestingsim2realpolicy-adaptationmultiview-rgb

该论文研究如何把开源视觉-语言-动作(VLA)策略迁移到真实温室中的草莓采摘任务,并在极少真实数据下实现端到端闭环采摘。核心结论是:多视角RGB输入加少于4小时示教微调,已经能让VLA在真实、遮挡严重、接触敏感的农业场景中取得可用表现。

  • 论文解决的是真实温室草莓采摘这一长时程、非结构化、易损伤的机器人任务;它重要,因为草莓采摘仍高度依赖人工,劳动力成本高且不稳定。
  • 现有传统模块化方案通常依赖检测、分割、深度、标定、规划和手工状态机,面对遮挡、反光、光照变化、接触导致状态变化时容易误差累积,跨农场迁移差。
  • 作者想回答三个实际问题:开源VLA是否能用于水果采摘;不同模型/微调策略在成功率、速度、损伤率上的权衡如何;异步推理是否优于同步部署。
  • 构建了一个端到端闭环系统:输入为三路RGB视角(左右固定相机+腕部相机)、机器人状态和语言指令,输出为8维动作(7维机械臂速度控制 + 1个吸/放/空闲泵指令)。
  • 刻意不使用深度、点云和显式几何标定,让VLA直接从视觉和语言到动作,减少任务特定工程依赖。
  • 采集了3.71小时 VR遥操作示教,共227个episode、491次有效采摘尝试,保留失败-恢复片段,以更贴近闭环部署分布。
  • 在统一数据与训练预算下微调三个开源VLA:pi0、pi0.5、wall-oss,比较全量微调LoRA两种适配方式。
  • 在部署上提出异步推理-控制解耦:推理线程分块产生活动作队列,30 Hz实时控制线程持续执行,以减少因推理延迟带来的抖动和错过接触窗口。
  • 论文声称这是首个将VLA迁移到真实温室桌面草莓采摘的系统性研究,并在统一50次真实温室试验协议下比较多种模型与适配策略。
  • 最佳结果来自pi0.5 + 全量微调 + 6 epochs成功率 SR = 74.0%成功分数 SS = 82.6周期时间 = 32.6 s/pick损伤率 DR = 4.1%
  • 同样在6 epochs下,LoRA版 pi0.5达到SR = 64.0%SS = 73.638.3 s/pickDR = 3.8%;说明LoRA更省参数,但任务完成率明显低于全量微调。
  • 其他模型在全量微调6 epochs时:pi0SR 60.0% / 38.4 s / DR 4.2%wall-ossSR 68.0% / 46.3 s / DR 3.9%;总体上pi0.5表现最好
  • 随训练从2到6 epochs增加,所有模型的SR普遍上升、周期时间下降。例如全量微调的pi0.530.0% SR / 44.2 s提升到74.0% SR / 32.6 s
  • 数据与系统规模方面:仅用3.71小时真实数据227 episodes就实现了“非平凡”的闭环采摘。论文还声称异步部署优于同步部署,但给定摘录中未提供该对比的具体数值。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.