cube-sorting2

Hugging Face2025-12-16 更新2025-12-17 收录

下载链接：

https://huggingface.co/datasets/Praneel-Auryal/cube-sorting2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人相关数据集，主要包含机器人操作任务的数据记录。数据集包含150个episodes，总计79907帧数据，涉及3个不同任务。数据特征包括：6维的机器人动作状态（肩部平移、肩部升降、肘部弯曲、腕部弯曲、腕部旋转和夹持器位置）；6维的观测状态（与动作状态相同）；480x640分辨率的腕部和前部摄像头视频数据（30fps）；以及时间戳、帧索引、episode索引等元数据。数据以parquet格式存储，总数据量约100MB，视频数据约200MB。

This is a robotics-related dataset created using LeRobot, mainly containing data records of robotic manipulation tasks. The dataset consists of 150 episodes, totaling 79,907 frames, and covers 3 distinct tasks. The data features include: 6-dimensional robotic action states (shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation, and gripper position); 6-dimensional observation states identical to the action states; 480×640 resolution video data captured by the wrist and front cameras at 30 fps; as well as metadata such as timestamps, frame indices, and episode indices. The data is stored in Parquet format, with the total size of the structured data being approximately 100 MB, and the video data totals around 200 MB.

创建时间：

2025-12-16

原始信息汇总

数据集概述

基本信息

数据集名称: cube-sorting2
发布者: Praneel-Auryal
托管平台: Hugging Face
许可证: Apache-2.0
创建工具: 使用 LeRobot (https://github.com/huggingface/lerobot) 创建
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总任务数: 3
总回合数: 150
总帧数: 79907
数据块大小: 1000
帧率: 30 FPS
数据文件总大小: 100 MB
视频文件总大小: 200 MB
代码库版本: v3.0
机器人类型: so101_follower
数据分割: 训练集 (train): 包含全部150个回合
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作

数据类型: float32
形状: [6]
描述: 包含6个关节的位置指令。
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测

状态观测

数据类型: float32
形状: [6]
描述: 包含6个关节的当前位置。
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测：腕部摄像头

数据类型: 视频
形状: [480, 640, 3] (高度，宽度，通道)
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

图像观测：前部摄像头

数据类型: 视频
形状: [480, 640, 3] (高度，宽度，通道)
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

元数据

时间戳: float32, 形状 [1]
帧索引: int64, 形状 [1]
回合索引: int64, 形状 [1]
索引: int64, 形状 [1]
任务索引: int64, 形状 [1]

引用信息

主页: [信息缺失]
论文: [信息缺失]
BibTeX引用格式: [信息缺失]

搜集汇总

数据集介绍

构建方式

在机器人操作任务的数据采集领域，cube-sorting2数据集通过LeRobot平台精心构建而成。该数据集记录了SO101型跟随机器人在执行积木分拣任务时的多模态交互数据，涵盖了150个完整操作片段，总计近八万帧时序信息。数据以分块存储的Parquet格式组织，每块包含1000帧记录，确保了高效的数据读取与处理流程。采集过程中同步录制了机器人腕部与前置视角的双路视频流，以每秒30帧的速率捕捉视觉动态，并与六自由度关节位置及夹爪状态等控制信号精确对齐，形成了时空一致的多模态观测-动作对序列。

特点

该数据集的核心特征在于其丰富的多模态表征与精细的结构化设计。数据集中不仅包含机器人本体的六维关节空间状态与动作指令，还整合了双视角的高清视频流，为模仿学习与视觉伺服控制研究提供了立体感知基础。时序索引与任务标识的完整标注使得每个数据帧都能准确回溯至对应的操作片段与具体任务场景，支持长时程行为分析与任务泛化研究。数据集采用高效的AV1视频编码与Parquet列式存储，在保证数据质量的同时显著降低了存储与传输开销，其模块化的分块结构也便于分布式加载与增量处理。

使用方法

研究者可通过LeRobot框架或直接解析Parquet文件来访问该数据集，利用其清晰的数据划分与元信息配置快速构建训练流水线。每个数据块独立封装了状态、动作、图像及索引字段，用户可根据需要灵活提取关节轨迹、视觉特征或二者融合的表示。双路视频流可通过指定路径加载，适用于端到端策略学习、行为克隆或视觉运动表征建模等任务。数据集已预置训练集划分，涵盖全部150个操作片段，支持机器人操作策略的离线评估与仿真验证，为具身智能算法的开发与比较提供了标准化基准。

背景与挑战

背景概述

在机器人操作领域，模仿学习与强化学习的研究亟需高质量、多模态的真实世界数据集作为支撑。cube-sorting2数据集应运而生，它由LeRobot平台构建，专注于机器人执行物体分拣任务的数据收集。该数据集收录了150个完整操作序列，涵盖近八万帧数据，整合了机械臂关节状态、腕部与前置摄像头视频流等多维度观测信息，旨在为机器人灵巧操作算法的开发与验证提供丰富资源。其采用Apache 2.0开源协议，体现了开放科学的精神，有望推动机器人学习范式的进步。

当前挑战

该数据集致力于解决机器人分拣操作中的模仿学习与策略泛化问题，其核心挑战在于如何从高维视觉与状态数据中提取鲁棒特征，以应对真实环境中物体姿态、光照变化及动态干扰的复杂性。构建过程中，数据同步与对齐构成显著难题，需确保多路视频流与关节状态信息在时序上精确一致；同时，大规模视频数据的压缩存储与高效读取亦对技术架构提出要求，需在保持视觉质量与降低存储开销间取得平衡。

常用场景

经典使用场景

在机器人操作领域，cube-sorting2数据集为机械臂的物体分拣任务提供了丰富的多模态数据。该数据集通过记录机械臂在三个不同任务中的操作序列，包含关节位置、视觉图像和时间戳等信息，为机器人学习复杂操作策略奠定了数据基础。研究者可基于此数据集训练端到端的控制模型，模拟真实环境下的抓取与放置动作，从而优化机械臂在动态场景中的决策能力。

解决学术问题

该数据集有效解决了机器人学中模仿学习与强化学习的数据稀缺问题。通过提供高维度的状态-动作对及同步视觉观测，它支持学者探索从原始传感器输入到连续控制指令的映射关系。其结构化标注有助于分析跨任务泛化性能，推动机器人自主操作的理论框架发展，并为多模态感知与运动规划的联合优化提供了实证基础。

衍生相关工作

围绕该数据集，衍生出多项机器人学习领域的经典研究。例如，结合深度强化学习算法，学者们开发了基于视觉的机械臂控制策略；利用序列建模技术，实现了跨任务的行为克隆与迁移学习。这些工作不仅验证了数据集的实用性，还促进了开源机器人平台LeRobot的生态发展，为社区提供了可复现的基准测试环境。

以上内容由遇见数据集搜集并总结生成