harvest_v1

Hugging Face2026-05-11 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/tomato-store/harvest_v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于机器人学任务的多模态演示数据集，由LeRobot项目创建。数据集包含171个任务片段（episodes），总计73,631帧数据，覆盖了4个不同的任务。数据以30fps的帧率采集，并以分块形式存储（块大小1000）。数据集总大小约为300MB（其中数据文件约100MB，视频文件约200MB）。数据特征包括：1) 动作指令：一个12维的浮点向量，表示双机械臂（左/右）的12个关节位置，包括肩部平移、肩部升降、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置。2) 观测状态：一个与动作指令结构相同的12维浮点向量，表示机械臂的关节状态。3) 视觉观测：来自三个固定摄像头的同步视频流，包括左前和右前摄像头（分辨率480x640）以及一个右上方摄像头（分辨率360x640），均为彩色视频（RGB三通道），使用AV1编解码器编码。4) 元数据：包括时间戳、帧索引、任务片段索引、全局索引和任务索引。数据集适用于机器人模仿学习、策略学习、多模态感知与控制等研究任务，特别是涉及双机械臂操作场景。所有数据均被划分为训练集。

This dataset is a multimodal demonstration dataset for robotics tasks, created by the LeRobot project. It contains 171 task episodes, totaling 73,631 frames, covering 4 different tasks. The data is collected at 30fps and stored in chunks (chunk size 1000). The total dataset size is approximately 300MB (with data files about 100MB and video files about 200MB). Data features include: 1) Action commands: a 12-dimensional floating-point vector representing the joint positions of a dual-arm robot (left/right), including shoulder translation, shoulder lift, elbow bend, wrist bend, wrist rotation, and gripper position. 2) Observation states: a 12-dimensional floating-point vector with the same structure as the action commands, representing the joint states of the robot arms. 3) Visual observations: synchronized video streams from three fixed cameras, including left-front and right-front cameras (resolution 480x640) and a top-right camera (resolution 360x640), all in color video (RGB three-channel) and encoded using the AV1 codec. 4) Metadata: including timestamps, frame indices, episode indices, global indices, and task indices. The dataset is suitable for research tasks such as robot imitation learning, policy learning, multimodal perception and control, especially for scenarios involving dual-arm manipulation. All data is divided into a training set.

创建时间：

2026-05-10

搜集汇总

数据集介绍

构建方式

harvest_v1数据集依托于LeRobot框架构建，旨在服务于机器人学习领域。该数据集通过操作双臂机器人（bi_so_follower）完成多种任务进行采集，共收录171个有效回合（episodes），合计73,631帧数据，涵盖了4种不同的机器人操作任务。数据以Parquet格式高效存储，并辅以视频文件记录视觉信息，确保结构完整、便于后续处理。

特点

数据集的一大特色在于其多模态信息融合：不仅提供了12维动作向量（action）与对应的机器人状态观测（observation.state），还集成了三个不同视角的视觉输入（left_front、right_front、right_top），分别以480×640或360×640分辨率、30帧每秒的AV1编码视频形式呈现。所有数据均以30Hz的频率同步记录，保证了时间维度上动作、状态与图像序列的严格对齐，为模仿学习等算法研究提供了扎实的基础。

使用方法

该数据集已集成至Hugging Face平台，用户可通过LeRobot库便捷地加载与可视化。在代码中，只需指定数据集路径‘tomato-store/harvest_v1’，即可调用标准API读取Parquet文件中的动作、状态及图像序列。同时，数据集已预先划分训练集（全部171回合），方便直接用于机器人策略模型的训练与评估，降低了机器人学习研究的入门门槛。

背景与挑战

背景概述

harvest_v1数据集是由tomato-store团队基于LeRobot框架构建的机器人操作数据集，发布于HuggingFace平台，采用Apache-2.0许可协议。该数据集聚焦于农业场景中的机器人采收任务，核心研究问题在于如何通过模仿学习使双机械臂机器人在复杂环境下执行精准的采摘与搬运操作。数据集包含了171个演示片段、超过7.3万帧的视觉与状态信息，记录了4种不同任务的机器人运动轨迹，为机器人学习领域提供了多视角图像（左前、右前、右上方）与12维关节动作数据。作为LeRobot生态的重要组成部分，harvest_v1填补了农业机器人操作数据集稀缺的空白，推动了机器人技能迁移与泛化能力的研究进展。

当前挑战

该数据集试图解决的核心领域挑战是农业场景中机器人操作的泛化性与精准性：传统方法难以应对果实姿态多变、光照条件复杂及操作空间狭窄等非结构化环境问题。在构建过程中，挑战尤为突出：首先，双机械臂协同作业需要精确同步，数据采集需确保左右臂关节状态的无缝对齐；其次，多视角摄像头（分辨率480×640及360×640）的标定与时间戳同步增加了数据预处理难度；此外，仅有171个演示片段的数据规模限制了模型对罕见场景的适应能力，如何从有限样本中学习鲁棒策略成为关键瓶颈。

常用场景

经典使用场景

在机器人学习领域，harvest_v1数据集凭借其精细的动作标注与多视角视觉信息，成为研究双臂协作任务的基石。该数据集记录了171条高质量轨迹，涵盖4种不同任务，每个时间步均包含12维关节角度及三路同步摄像头采集的视觉流。研究者常将其用于训练模仿学习模型，通过专家示范数据习得复杂的双臂操作策略，例如在农业场景中完成果蔬的抓取、分拣与摆放等精细动作。

解决学术问题

该数据集有效回应了双臂机器人协同控制中动作同步性与视觉-运动映射这两大学术难题。通过提供去中心化、无标定的多模态数据，它使得学术界得以深入探索基于视觉的端到端策略学习，以及如何处理双臂异构结构下的动作协调问题。其意义在于为机器人从示教中泛化到新环境的能力研究提供了标准化基准，推动了双臂操作领域从理论建模向数据驱动方法的范式转变。

衍生相关工作

围绕harvest_v1已衍生出一系列代表性工作，包括基于扩散策略的多模态动作生成模型、融合时空注意力的视觉-动作联合编码网络，以及针对柔性物体操作的运动技能迁移框架。这些研究或将数据集中的原始轨迹重构为更高层次的符号化规划序列，或利用其相机阵列信息构建隐式三维表征，均显著提升了机器人在复杂光照与遮挡条件下的鲁棒性，形成了从数据获取到模型部署的完整技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集