dice_project_v2

Hugging Face2026-01-05 更新2026-01-06 收录

下载链接：

https://huggingface.co/datasets/JipJ/dice_project_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人数据集，包含名为'so101_follower'的机器人数据，共有20个片段、5799帧和1个任务。数据集包含动作和观察数据，包括机器人关节位置以及来自夹持器和顶部摄像头的视频观察。数据以Parquet文件格式存储，并包括具有特定编解码器和格式细节的视频文件。

创建时间：

2026-01-04

原始信息汇总

数据集概述

基本信息

数据集名称: dice_project_v2
托管地址: https://huggingface.co/datasets/JipJ/dice_project_v2
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可协议: Apache-2.0
任务类别: 机器人学

数据集规模与结构

总任务数: 1
总回合数: 20
总帧数: 5799
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS
数据分割: 所有回合 (0:20) 均用于训练。
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

数据集包含以下特征字段：

动作

数据类型: float32
形状: [6]
描述: 机械臂的6个关节位置。
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
描述: 机械臂的6个关节位置（与动作相同）。
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测图像：夹爪左视图

数据类型: 视频
形状: [720, 1280, 3] (高度，宽度，通道)
视频信息:
- 高度: 720
- 宽度: 1280
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30
- 通道数: 3
- 包含音频: 否

观测图像：顶部视图

数据类型: 视频
形状: [720, 1280, 3] (高度，宽度，通道)
视频信息:
- 高度: 720
- 宽度: 1280
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30
- 通道数: 3
- 包含音频: 否

索引与元数据

时间戳: 数据类型为 float32，形状为 [1]。
帧索引: 数据类型为 int64，形状为 [1]。
回合索引: 数据类型为 int64，形状为 [1]。
索引: 数据类型为 int64，形状为 [1]。
任务索引: 数据类型为 int64，形状为 [1]。

附加信息

代码库版本: v3.0
机器人类型: so101_follower
主页: 未提供
论文: 未提供
引用信息: 未提供

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是算法训练与模型验证的基石。dice_project_v2数据集依托LeRobot平台构建，通过采集真实机器人操作数据形成结构化记录。该数据集包含20个完整任务片段，总计5799帧数据，以30帧每秒的速率同步记录机械臂关节状态与多视角视觉信息。数据以分块Parquet文件形式存储，每块约1000帧，便于高效加载与处理，同时关联的MP4视频文件提供了直观的动作观察视角。

特点

该数据集在机器人操作任务中展现出多维度的数据表征能力。其核心特征在于同步整合了六自由度机械臂的关节位置动作与状态观测，并辅以夹爪左视与顶部双视角的高清视频流，分辨率达1280x720。数据结构设计严谨，包含时间戳、帧索引与任务索引等元数据，支持按片段或时间步进行精细检索。所有数据均以标准化格式封装，确保了跨平台使用的一致性与可扩展性。

使用方法

为促进机器人模仿学习与行为克隆研究，该数据集提供了清晰的使用路径。用户可通过加载Parquet文件直接获取动作、状态及元数据序列，并利用配套视频文件进行视觉验证或特征提取。数据集已预设训练划分，涵盖全部20个任务片段，适合用于端到端策略训练或离线强化学习。研究者可基于LeRobot工具链进行数据预处理、模型训练与仿真测试，实现从数据到策略的完整工作流。

背景与挑战

背景概述

在机器人学习领域，高质量、多模态的数据集对于推动模仿学习与强化学习算法的进步至关重要。dice_project_v2数据集由HuggingFace的LeRobot项目团队创建，旨在为机器人操作任务提供丰富的交互演示数据。该数据集聚焦于机械臂控制，采集了包含关节状态、夹爪图像及顶部视角视频在内的多维度观测信息，其核心研究问题在于如何利用真实世界的演示数据来训练机器人执行复杂的抓取与操作任务。尽管具体创建时间与主要研究人员信息尚未公开，但该数据集依托于开源机器人学习框架LeRobot，体现了社区在构建标准化机器人数据集方面的努力，有望促进机器人学习模型的泛化能力与实用性研究。

当前挑战

dice_project_v2数据集致力于解决机器人模仿学习中的领域挑战，即如何从有限的人类演示中学习鲁棒且可泛化的操作策略。具体而言，数据集需应对高维视觉与状态观测的异质性融合、长时程任务中的动作序列建模，以及真实物理交互中的动态不确定性等难题。在构建过程中，团队面临数据采集的规模化挑战，包括多传感器同步校准、大规模视频数据的高效存储与处理，以及确保演示轨迹在多样场景下的质量一致性。此外，数据标注与结构化组织亦需克服机器人专有坐标系转换与时间戳对齐等技术障碍，这些因素共同构成了数据集构建的核心难点。

常用场景

经典使用场景

在机器人学习领域，dice_project_v2数据集为模仿学习与强化学习算法提供了宝贵的训练资源。该数据集通过记录机械臂在真实环境中的操作轨迹，包括关节位置状态与多视角视觉观测，使得研究者能够基于这些演示数据训练策略模型，实现从人类示范到自主执行的过渡。其经典应用场景聚焦于机械臂的抓取与操作任务，通过端到端的学习框架，模型能够从高维视觉输入中推断出精确的动作指令，从而完成复杂的物体操控。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，主要集中在视觉模仿学习、行为克隆与离线强化学习领域。例如，基于此类多模态演示数据，研究者开发了能够处理高维图像的策略网络、改进示范数据利用率的算法，以及结合模型预测控制与学习的方法。这些工作不仅推动了机器人学习算法的进步，也为构建更通用、更安全的自主系统奠定了数据与算法基础。

数据集最近研究