xiaochyVera/pick_toys_human_5_1_1

Name: xiaochyVera/pick_toys_human_5_1_1
Creator: xiaochyVera
Published: 2026-05-01 17:45:48
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/xiaochyVera/pick_toys_human_5_1_1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个机器人相关数据集，使用LeRobot创建。数据集包含100个episodes、56983帧、300个视频，数据格式为parquet文件。特征包括动作（8个关节和夹持器状态）、观察状态（8个关节和夹持器状态）、末端执行器姿态（6D旋转和3D平移）、来自Azure Kinect相机的深度和彩色图像（720x1280分辨率）等。

This is a robotics-related dataset created using LeRobot. It contains 100 episodes, 56983 frames, and 300 videos in parquet format. Features include actions (8 joints and gripper states), observation states (8 joints and gripper states), end-effector poses (6D rotation and 3D translation), depth and color images from Azure Kinect cameras (720x1280 resolution), etc.

提供机构：

xiaochyVera

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，通过遥操作或仿真环境收集人类演示数据，涵盖100个回合、总计56983帧的机器人操作任务。数据以Parquet格式存储于`data/`目录，并附有对应视频文件存放于`videos/`路径。每个回合记录了机器人7个关节与夹爪的动作及状态，同时包含多视角视觉观测，如Azure Kinect相机提供的深度图与彩色图像。数据集按照单一任务进行划分，训练集包含全部100个回合，未设置验证或测试集，便于直接用于模仿学习或行为克隆模型的训练。

特点

数据集具备多模态特性，融合了关节空间状态、末端执行器位姿（以6D旋转表示和三维平移向量描述）以及高分辨率视觉输入。视觉数据来自三个摄像头视角，包括对齐后的深度图与原始彩色图像，分辨率达720×1280像素，为模型提供了丰富的空间与纹理信息。此外，数据以30帧每秒的采样率连续记录，时间戳与帧索引的保存使得时序建模成为可能。整体结构紧凑，动作与状态维度一致，降低了预处理复杂度，适用于端到端策略学习。

使用方法

数据集可通过HuggingFace的LeRobot库便捷加载，使用`load_dataset`函数指定配置名`default`即可自动读取Parquet文件与视频关联。用户可根据特征字段提取动作、观测状态及图像序列，构建训练样本。由于数据已按回合组织，建议以回合为单位进行批处理，利用`episode_index`索引遍历。对于视觉-运动策略，可将`observation.images`中的视频帧作为输入，配合`action`或`action.right_eef_pose`作为监督信号。若需自定义划分，可基于`split`信息手动分离数据，或借助LeRobot内置的采样器生成轨迹子集。

背景与挑战

背景概述

该数据集名为 pick_toys_human_5_1_1，诞生于机器人学习与模仿学习领域日益蓬勃发展的背景下，由Hugging Face社区基于LeRobot框架于近期创建。核心研究问题聚焦于如何通过人类示教数据驱动机器人掌握精细化的抓取与操作技能。数据集包含100个示范片段，总计约56,983帧，记录了单任务场景下机器人从关节状态、末端执行器位姿到多视角视觉信息（含深度与彩色图像）的完整观测与动作序列。其发布源于LeRobot项目对标准化机器人数据集的迫切需求，旨在为机器人策略学习提供统一、可复现的基准。该数据集强调人类操作的示范质量，通过多样化的视角与传感器信息，推动了从仿真到真实世界迁移的研究，对具身智能领域的标准化数据构建与算法评估产生了显著催化作用。

当前挑战

该数据集所解决的领域挑战在于机器人操作策略学习的低效性与泛化不足。具体而言，1）领域问题层面，机器人需要从高维视觉与状态空间中学习鲁棒的动作映射，传统方法往往依赖手工特征或仿真环境，难以应对真实场景中的视觉变化与物体多样性。该数据集通过提供高质量、多模态的人类示教数据（如关节角度、末端执行器位姿与同步视频），为模仿学习与行为克隆提供了关键监督信号，降低了策略学习的样本复杂度。2）构建过程中，挑战体现在数据采集的物理一致性上：需同步多台Azure Kinect相机、机械臂状态流与时间戳，确保每一帧的观测-动作对精确对齐；此外，人类示教时的动作多样性、力控制意图量化以及任务目标的明确标注，均对数据标注与后处理流程提出严苛要求。

常用场景

经典使用场景

在机器人学习与操控领域，pick_toys_human_5_1_1数据集作为一项高质量的示范数据资源，广泛应用于模仿学习算法的训练与评估。该数据集记录了人类操作者在完成玩具拾取任务时的关节状态、末端执行器位姿及多视角视觉观测，提供了100个经验片段、近57000帧时序数据，并以30帧每秒的采样频率捕捉连续动作轨迹。研究者常将其用于行为克隆、逆强化学习或离线强化学习等方法的研究，以验证模型在复杂抓取动作上的泛化能力。此外，数据集中包含的深度图像与彩色图像序列，为融合视觉与运动信息的端到端策略学习提供了坚实的基础支持。

衍生相关工作

围绕pick_toys_human_5_1_1数据集，衍生出了一系列具有影响力的研究工作，尤其是在基于LeRobot框架的策略学习与数据高效训练方向。该数据集常被用于验证扩散策略、Transformer-based决策模型以及时序对比学习等方法的有效性。研究人员通过在此数据集上进行基准测试，提出了针对小样本场景的状态-动作空间对齐技术，以及融合深度信息的视觉表示预训练方法。此外，该数据集还促进了跨任务知识迁移的研究，使得在单一拾取任务上训练的策略能够通过微调适应新的操作对象与目标，进而催生了更多关于机器人示教数据集标准化与复用性的学术讨论。

数据集最近研究