Yteria/so101_cube_bowl_v2

Name: Yteria/so101_cube_bowl_v2
Creator: Yteria
Published: 2026-04-25 12:34:30
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Yteria/so101_cube_bowl_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人领域。数据集包含50个episodes，共13908帧，帧率为30fps。数据以parquet格式存储，视频以mp4格式存储。特征包括动作（6个关节位置）、观察状态（6个关节位置）、顶部和腕部摄像头图像（480x640x3）、时间戳、帧索引、episode索引等。数据集总大小为100MB（数据文件）和200MB（视频文件）。

This dataset was created using LeRobot and is primarily used in the robotics field. It contains 50 episodes with a total of 13,908 frames at 30fps. The data is stored in parquet format, and videos are stored in mp4 format. Features include actions (6 joint positions), observation states (6 joint positions), top and wrist camera images (480x640x3), timestamps, frame indices, episode indices, etc. The total dataset size is 100MB (data files) and 200MB (video files).

提供机构：

Yteria

搜集汇总

数据集介绍

构建方式

so101_cube_bowl_v2数据集基于LeRobot框架构建，旨在为机器人操作任务提供标准化训练数据。该数据集通过远程操作控制so_follower型机械臂执行立方体抓取与放置至碗中的单一任务，共采集50个演示回合，累计包含13908帧高保真轨迹数据。数据以parquet格式存储，并同步记录来自顶部和腕部两个视角的640×480分辨率视频流，编码采用高效AV1格式，确保视觉信息完整。整个数据集被划分为单一训练集，便于直接用于模仿学习或离线强化学习算法的训练与评估。

特点

该数据集的核心特点在于其结构化的多模态数据记录与紧凑的任务设计。每条轨迹同步存储六维关节角度动作指令与对应状态观测，涵盖肩部、肘部、腕部及夹爪的完整运动控制。顶部与腕部双视角视频为空间交互提供了丰富的视觉上下文，而30帧/秒的采样频率则保障了时间连续性。此外，元数据中包含清晰的帧索引、回合索引及时间戳，极大便利了时序建模与数据切分，且数据总量约300MB，兼具规模适中与信息密度的优势。

使用方法

使用者可借助LeRobot库加载该数据集，其结构遵循标准的chunk分片策略，parquet文件与视频文件分别按索引组织，便于流式读取与内存高效访问。用户可通过配置default config自动映射数据路径，并利用框架提供的Dataset类轻松遍历各回合的观测、动作及元数据字段。数据集广泛应用于机器人技能学习领域，特别是基于视觉的运动策略模仿，用户可直接用其训练端到端模型，或提取专家轨迹用于行为克隆与逆强化学习研究。

背景与挑战

背景概述

在机器人操作领域，从人类演示中学习复杂技能是实现通用智能体自主执行任务的关键路径。so101_cube_bowl_v2数据集由研究团队基于LeRobot框架创建，聚焦于单任务机器人操作学习，尤其针对“将方块放入碗中”这一基础但极具代表性的抓取与放置动作。该数据集包含50个演示片段，总计13908帧高保真数据，涵盖来自顶部和腕部摄像头的双视角视频（480×640分辨率，30帧每秒）以及6维机械臂关节状态与动作序列，为模仿学习或行为克隆研究提供了结构化、可复现的基准资源。数据集采用Apache 2.0许可证开放，旨在促进机器人学习领域的数据共享与算法公平比较，对推动多模态感知与运动控制融合研究具有重要参考价值。

当前挑战

该数据集所应对的领域核心挑战在于如何从有限的人类演示中泛化出稳健的机器人操作技能。具体而言，相较于大规模多样化机器人数据集，so101_cube_bowl_v2仅有50条轨迹，这要求算法具备高效利用小样本数据的能力，并抵御环境微小扰动或物体位置偏差所带来的性能退化。在数据集构建过程中，挑战主要体现在人为演示的轨迹一致性难以保证，例如机械臂各关节运动的速度与幅度可能因操作者不同而产生差异，进而引入噪声；此外，高分辨率视频与姿态数据的同步采集、存储格式的统一（如Parquet与AV1编码视频）、以及去除无效或错误帧的清洗流程，均需要精密的工程设计与质量校验，以确保最终数据集的可信度与实用性。

常用场景

经典使用场景

在机器人操作与模仿学习领域，so101_cube_bowl_v2数据集扮演着关键角色。该数据集通过SO-100系列机械臂的遥操作采集，记录了将方块精确放入碗中的单一操作任务，包含50个完整演示轨迹、近1.4万帧时序数据及约300MB的多视角视频（顶部与腕部相机）。其标准化的动作与状态空间设计，为研究基于视觉的机器人精细抓取、物体重定向与任务泛化提供了高保真训练样本，成为验证行为克隆、逆强化学习等方法的基准资源。

衍生相关工作

围绕so101_cube_bowl_v2，学术界已衍生出一系列经典工作。最典型的是基于LeRobot框架的端到端模仿学习管线，研究者利用其数据格式开发了高效的动作分块策略与时空注意力架构。此外，结合扩散策略的机器人动作生成模型在此数据集上验证了多模态融合的优越性，而逆动力学建模的对比实验则揭示了状态估计误差对长程操作的影响。这些工作共同推动了开源机器人数据集在标准化评估与算法公平对比方面的发展。

数据集最近研究