---
source: arxiv
url: http://arxiv.org/abs/2603.05982v1
published_at: '2026-03-06T07:26:45'
authors:
- Ziyang Zhao
- Shuheng Wang
- Zhonghua Miao
- Ya Xiong
topics:
- vision-language-action
- robot-harvesting
- sim2real
- policy-adaptation
- multiview-rgb
relevance_score: 0.95
run_id: materialize-outputs
language_code: zh-CN
---

# HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

## Summary
该论文研究如何把开源视觉-语言-动作（VLA）策略迁移到真实温室中的草莓采摘任务，并在极少真实数据下实现端到端闭环采摘。核心结论是：多视角RGB输入加少于4小时示教微调，已经能让VLA在真实、遮挡严重、接触敏感的农业场景中取得可用表现。

## Problem
- 论文解决的是**真实温室草莓采摘**这一长时程、非结构化、易损伤的机器人任务；它重要，因为草莓采摘仍高度依赖人工，劳动力成本高且不稳定。
- 现有传统模块化方案通常依赖检测、分割、深度、标定、规划和手工状态机，面对**遮挡、反光、光照变化、接触导致状态变化**时容易误差累积，跨农场迁移差。
- 作者想回答三个实际问题：开源VLA是否能用于水果采摘；不同模型/微调策略在成功率、速度、损伤率上的权衡如何；异步推理是否优于同步部署。

## Approach
- 构建了一个端到端闭环系统：输入为**三路RGB视角**（左右固定相机+腕部相机）、机器人状态和语言指令，输出为**8维动作**（7维机械臂速度控制 + 1个吸/放/空闲泵指令）。
- 刻意**不使用深度、点云和显式几何标定**，让VLA直接从视觉和语言到动作，减少任务特定工程依赖。
- 采集了**3.71小时 VR遥操作示教**，共**227个episode、491次有效采摘尝试**，保留失败-恢复片段，以更贴近闭环部署分布。
- 在统一数据与训练预算下微调三个开源VLA：**pi0、pi0.5、wall-oss**，比较**全量微调**与**LoRA**两种适配方式。
- 在部署上提出**异步推理-控制解耦**：推理线程分块产生活动作队列，30 Hz实时控制线程持续执行，以减少因推理延迟带来的抖动和错过接触窗口。

## Results
- 论文声称这是**首个将VLA迁移到真实温室桌面草莓采摘**的系统性研究，并在**统一50次真实温室试验协议**下比较多种模型与适配策略。
- 最佳结果来自**pi0.5 + 全量微调 + 6 epochs**：**成功率 SR = 74.0%**，**成功分数 SS = 82.6**，**周期时间 = 32.6 s/pick**，**损伤率 DR = 4.1%**。
- 同样在6 epochs下，**LoRA版 pi0.5**达到**SR = 64.0%**、**SS = 73.6**、**38.3 s/pick**、**DR = 3.8%**；说明LoRA更省参数，但任务完成率明显低于全量微调。
- 其他模型在全量微调6 epochs时：**pi0**为**SR 60.0% / 38.4 s / DR 4.2%**，**wall-oss**为**SR 68.0% / 46.3 s / DR 3.9%**；总体上**pi0.5表现最好**。
- 随训练从**2到6 epochs**增加，所有模型的**SR普遍上升、周期时间下降**。例如全量微调的**pi0.5**从**30.0% SR / 44.2 s**提升到**74.0% SR / 32.6 s**。
- 数据与系统规模方面：仅用**3.71小时真实数据**、**227 episodes**就实现了“非平凡”的闭环采摘。论文还声称**异步部署优于同步部署**，但给定摘录中未提供该对比的具体数值。

## Link
- [http://arxiv.org/abs/2603.05982v1](http://arxiv.org/abs/2603.05982v1)