zhenxuan/so100-put-apricot

Name: zhenxuan/so100-put-apricot
Creator: zhenxuan
Published: 2026-04-25 04:32:27
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/zhenxuan/so100-put-apricot

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人领域。数据集包含63个episodes，共96108帧，帧率为30fps。数据文件大小为100MB，视频文件大小为200MB。数据集的特征包括动作、观察状态、前端图像、时间戳、帧索引、episode索引、索引和任务索引。动作和观察状态的特征包括shoulder_pan.pos、shoulder_lift.pos、elbow_flex.pos、wrist_flex.pos、wrist_roll.pos和gripper.pos。前端图像的特征包括高度、宽度和通道数。数据集的许可证为apache-2.0。

This dataset was created using LeRobot and is primarily used in the field of robotics. The dataset contains 63 episodes with a total of 96,108 frames at a frame rate of 30fps. The data files are 100MB in size, and the video files are 200MB in size. The features of the dataset include action, observation state, front images, timestamp, frame index, episode index, index, and task index. The features of action and observation state include shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, and gripper.pos. The features of front images include height, width, and channels. The dataset is licensed under apache-2.0.

提供机构：

zhenxuan

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的演示数据集对于模仿学习算法的训练至关重要。so100-put-apricot数据集由zhenxuan团队利用LeRobot框架构建而成，专为机器人操作任务设计。该数据集包含63个演示片段，共计96,108帧图像，聚焦于将杏子放置到指定位置的单一任务。数据采集频率为30帧每秒，采用双线程架构：动作数据与机器人关节状态以32位浮点数形式存储，涵盖肩部、肘部、腕部及夹爪的6个自由度信息；视觉观测则通过前置摄像头获取480×640分辨率的高清视频流，采用AV1编码压缩，总数据量约300MB。数据集被划分为训练集，所有63个片段均用于模型训练。

特点

该数据集的核心特点体现在其工业级的标准化设计。首先，采用LeRobot v3.0协议规范，通过Parquet格式存储结构化的时序数据，配合分块索引机制实现高效读写，视频与状态数据按统一索引对齐，便于多模态融合。其次，数据采集基于so_follower机器人平台，状态空间与动作空间维度一致，均为6维连续控制，消除了状态-动作映射中的歧义性。值得注意的是，虽然仅包含单一任务，但96,108帧的密集采样密度为细粒度动作学习提供了充足样本。此外，数据严格保持30Hz恒定帧率，时间戳与帧索引的精确记录使得时序依赖性建模成为可能。

使用方法

该数据集通过HuggingFace平台分发，集成于LeRobot生态系统中。使用者可直接调用LeRobot库中的数据集加载接口，通过指定数据集标识符'zhenxuan/so100-put-apricot'完成自动下载与解析。数据以episode为单位组织，每个episode包含完整的机器人状态序列、动作指令序列、前置摄像头影像以及精确的时间轴。对于训练场景，推荐采用模仿学习框架（如行为克隆或扩散策略），将观测图像与机器人状态作为网络输入，对应的6维动作向量作为监督信号。数据集的Parquet格式兼容主流深度学习框架（PyTorch/TensorFlow），而视频文件可直接用于图像增强处理。值得注意的是，数据集已预设训练分割，无需手动划分。

背景与挑战

背景概述

该数据集由Hugging Face社区的研究者基于LeRobot框架构建，创建于近期，旨在为机器人操作任务提供标准化的训练数据。核心研究问题聚焦于如何通过模仿学习使机器人精准完成“将杏子放置于目标位置”的精细操作。数据集包含63个演示片段、共96,108帧图像及对应的6维关节动作序列，覆盖肩、肘、腕及夹爪等自由度。其发布为机器人领域的模仿学习与行为克隆研究提供了低成本、可复现的基准资源，尤其推动了低自由度机械臂在轻量级操作任务中的算法验证与性能评估。

当前挑战

该数据集面临的挑战主要源于任务本身的高精度需求：机器人需在有限自由度下实现柔性物体的稳定抓取与精确放置，这对动作规划的鲁棒性与视觉反馈的实时性提出严苛要求。在构建过程中，数据采集依赖人工遥操作示范，存在演示质量不一致、场景光照变化及物体位姿差异等干扰。此外，63个示范片段的数量相对有限，易导致模型过拟合于特定轨迹，难以泛化至未见的初始条件或物体姿态，亟需借助数据增强或域随机化技术缓解样本稀疏性带来的学习困境。

常用场景

经典使用场景

在机器人操作与模仿学习的研究领域中，“so100-put-apricot”数据集专注于记录机械臂完成单一精细操作任务——将杏子放置到指定位置——的完整运动轨迹。该数据集由LeRobot框架采集，包含63个完整回合、近十万帧时间序列数据，每个回合以30帧每秒的速率同步记录机械臂六个关节的角度动作指令、本体状态以及前视摄像头的实时影像。研究者常将此数据集作为训练端到端模仿学习模型的基准资源，尤其适用于验证行为克隆、逆强化学习或基于视觉的运动规划算法在有限样本下的泛化能力。其结构化的高保真姿态与图像信息，为探索从感官输入到运动输出的直接映射关系提供了理想平台。

衍生相关工作

围绕该数据集衍生出了一系列具有启发性的研究工作。其中，基于行为克隆与扩散策略的方法被广泛采用，研究者通过对比不同神经网络架构（如卷积网络、Transformer序列模型）在预测6维连续动作上的表现，揭示了短期运动记忆与视觉特征融合的重要性。此外，部分工作基于该数据集探索了多任务元学习策略，尝试将“放置杏子”的技能迁移至放置其他不同形状与质地的物体任务中。另有学者引入逆动力学模型与因果推理框架，利用数据集中丰富的重复回合分析失败案例的共性，改进机器人自我纠错能力。这些工作共同构成了从数据驱动到可迁移技能提取的完整学术脉络。

数据集最近研究