put_the_doll_into_the_box_correct_adv

Hugging Face2026-01-25 更新2026-01-26 收录

下载链接：

https://huggingface.co/datasets/sengi/put_the_doll_into_the_box_correct_adv

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过LeRobot创建的，主要用于机器人技术领域。数据集包含机器人的动作和观测数据，如关节位置、顶部和腕部摄像头的图像，以及各种索引信息。具体包括50个片段，31,679帧数据，存储为parquet文件格式，并伴有相关的视频文件。数据集的元信息详细描述了数据结构，包括动作特征、观测状态、图像数据等。

创建时间：

2026-01-23

原始信息汇总

数据集概述

基本信息

数据集名称: put_the_doll_into_the_box_correct_adv
任务类别: 机器人学
标签: LeRobot
许可证: Apache-2.0
创建工具: LeRobot

数据集规模

总情节数: 50
总帧数: 31679
总任务数: 1
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS
数据格式: Parquet
视频格式: MP4
代码库版本: v3.0
机器人类型: so100

数据划分

训练集: 包含全部50个情节。

数据结构与特征

数据集包含以下关键特征：

动作

数据类型: float32
形状: [6]
名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
帧率: 30 FPS

观测状态

数据类型: float32
形状: [6]
名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
帧率: 30 FPS

观测图像（顶部摄像头）

数据类型: 视频
形状: [480, 640, 3]
名称: height, width, channels
视频高度: 480
视频宽度: 640
视频编解码器: av1
像素格式: yuv420p
是否为深度图: false
视频帧率: 30 FPS
视频通道数: 3
包含音频: false

观测图像（腕部摄像头）

数据类型: 视频
形状: [480, 640, 3]
名称: height, width, channels
视频高度: 480
视频宽度: 640
视频编解码器: av1
像素格式: yuv420p
是否为深度图: false
视频帧率: 30 FPS
视频通道数: 3
包含音频: false

元数据

时间戳: 数据类型 float32，形状 [1]
帧索引: 数据类型 int64，形状 [1]
情节索引: 数据类型 int64，形状 [1]
索引: 数据类型 int64，形状 [1]
任务索引: 数据类型 int64，形状 [1]
优势值: 数据类型 float32，形状 [1]

文件路径模式

数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用信息

主页: 信息缺失
论文: 信息缺失
BibTeX引用: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于算法训练至关重要。put_the_doll_into_the_box_correct_adv数据集依托LeRobot平台构建，通过记录SO100型机械臂执行“将玩偶放入盒子”任务的实际操作过程生成。数据采集以30帧每秒的速率进行，涵盖了50个完整操作片段，总计31679帧，并以Parquet格式分块存储，确保了数据的结构化与高效访问。

特点

该数据集在机器人模仿学习与强化学习研究中展现出显著特色。其核心在于提供了多模态观测信息，包括顶部与腕部摄像头采集的480x640分辨率RGB视频流，以及机械臂六维关节状态与动作向量。尤为突出的是，数据集引入了优势函数标签，为基于价值的策略评估提供了直接支持，这种设计在同类操作数据集中较为罕见。

使用方法

研究人员可利用该数据集训练或评估机器人操作策略。数据以分块Parquet文件组织，便于流式加载与处理。典型使用流程涉及读取动作、状态观测及图像序列，并利用优势标签进行策略优化或离线强化学习分析。数据集已预分为训练集，可直接用于模型训练，其标准化的特征定义与元数据描述简化了集成到现有机器学习管道的过程。

背景与挑战

背景概述

在机器人操作学习领域，模仿学习与强化学习方法的进步亟需高质量、结构化的真实世界交互数据集作为支撑。put_the_doll_into_the_box_correct_adv数据集应运而生，它由HuggingFace的LeRobot项目团队构建，旨在为机器人灵巧操作任务提供基准数据。该数据集专注于“将玩偶放入盒子”这一具体操作，通过集成机械臂的多视角视觉观测与连续关节动作指令，为研究端到端的策略学习提供了实证基础。其设计体现了当前机器人学从仿真环境向物理系统迁移的研究趋势，对推动家庭服务机器人等应用的自主操作能力具有重要价值。

当前挑战

该数据集致力于解决机器人操作中基于视觉的精细物体抓取与放置这一核心挑战，其难点在于如何从高维视觉输入中理解物体姿态、规划无碰撞轨迹并执行精准的抓握力度。在构建过程中，团队面临多重挑战：真实世界数据的采集需克服机械臂控制、多传感器同步与大量视频数据存储的技术瓶颈；确保动作指令与视觉观测在时间上严格对齐对系统集成提出了高要求；此外，标注大规模连续控制序列中的优势值（advantage）以支持强化学习，需要设计可靠的计算或评估流程，这增加了数据处理的复杂性。

常用场景

经典使用场景

在机器人操作领域，put_the_doll_into_the_box_correct_adv数据集为模仿学习与强化学习算法的训练与评估提供了关键支持。该数据集记录了机械臂执行“将玩偶放入盒子”任务的完整轨迹，包含多视角图像、关节状态与动作指令，常用于训练端到端的视觉运动策略模型。研究者利用其丰富的时序数据，能够模拟真实环境中的抓取与放置操作，推动机器人自主执行精细任务的能力发展。

实际应用

在实际工业与服务场景中，此类数据集直接赋能于自动化分拣、物流包装及家庭辅助机器人等系统开发。基于数据驱动的模型能够学习如何可靠地操纵不规则物体（如玩偶），适应略微变化的物体姿态与环境布局。这减少了传统编程中对精确预定义轨迹的依赖，提升了机器人在非结构化环境中完成柔性操作任务的适应性与可靠性，为智能制造的柔性化升级提供了数据基石。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在机器人模仿学习与视觉运动控制的算法创新上。例如，基于此类演示数据的扩散策略模型、动作分块预测网络以及结合优势加权回归的离线强化学习方法得到了广泛研究。这些工作不仅提升了策略在相似任务上的性能，还推动了多模态观测（如顶部与腕部摄像头）的融合表示学习，为后续更复杂的多任务操作数据集构建与基准测试设立了参考范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集