task3-TOY-clean

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/ETHrobotlearning/task3-TOY-clean

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot工具创建，是一个面向机器人学任务的数据集。它包含45个训练episodes，总计5465帧数据，涵盖3个不同的任务。数据采用多模态形式，包括机器人动作指令（6维关节位置：肩部平移、肩部升降、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置）、观测状态（6维关节位置反馈）以及来自前置摄像头的视觉观测（480x640分辨率RGB视频，10fps）。数据集还包含时间戳、帧索引、episode索引、任务索引等元数据。数据以parquet文件格式存储，视频采用AV1编码。机器人类型为so_follower。数据集已预先划分为训练集（包含所有45个episodes），适用于机器人控制策略学习、模仿学习、强化学习等研究任务。

This dataset is created using the LeRobot tool and is designed for robotics tasks. It contains 45 training episodes, totaling 5465 frames of data, covering 3 different tasks. The data is multimodal, including robot action commands (6-dimensional joint positions: shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation, gripper position), observation states (6-dimensional joint position feedback), and visual observations from a front-facing camera (480x640 resolution RGB video at 10fps). The dataset also includes metadata such as timestamps, frame indices, episode indices, and task indices. Data is stored in parquet file format, with videos encoded in AV1. The robot type is so_follower. The dataset is pre-split into a training set (including all 45 episodes) and is suitable for research tasks such as robot control policy learning, imitation learning, and reinforcement learning.

创建时间：

2026-05-19

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的构建质量直接决定了模型泛化能力的上限。task3-TOY-clean数据集基于LeRobot框架创建，该框架专为机器人模仿学习与操控任务设计。数据集收集了45个演示片段，总计5465帧时序数据，涵盖3种不同的子任务。每个片段均以10帧/秒的频率录制，记录机器人执行动作时的多维状态信息。其构建遵循结构化的数据存储规范，采用Parquet格式压缩数值型数据，并以AV1编码的MP4视频文件保存前视摄像头捕捉的640×480像素RGB图像，兼顾存储效率与视觉信息保真度。

特点

该数据集在特征设计上展现出鲜明的机器人操控领域特性。动作空间与观测状态均包含6维关节变量，覆盖肩部、肘部、腕部及夹爪等关键自由度，使状态与动作形成紧密的闭环映射。特别地，数据集通过episode_index与task_index字段对演示序列和任务类型进行显式标注，便于开展多任务学习与模仿学习研究。总计约300MB的存储规模中，视频数据占据主要比例，反映了视觉观测在机器人学习中的核心地位。整体以1000帧为分块单位进行组织，既保证数据加载的连续性，又支持大规模并行训练的需求。

使用方法

使用本数据集时，推荐通过LeRobot库提供的专用可视化界面进行数据预览与质量校验，该界面部署于HuggingFace Spaces平台。实际应用阶段，研究者可借助LeRobot的数据加载模块，按照默认划分规则（全部45个片段归入训练集）批量读取Parquet数据文件与视频流。数据集兼容基于状态的模仿学习方法，如行为克隆，以及融合视觉输入的端到端学习范式。建议利用robot_type元信息明确机器人型号，以便适配对应的控制接口。对于需要数据集分割的场景，可依据episode_index自定义验证集比例，或通过task_index筛选特定任务的演示子集。

背景与挑战

背景概述

task3-TOY-clean数据集由ETH机器人学习团队于近期创建，依托HuggingFace LeRobot框架构建，专注于机器人模仿学习领域。该数据集以so_follower型机械臂为载体，采集了45个演示回合、共计5465帧的高频观测数据，涵盖3个精细操作任务。核心研究问题聚焦于如何通过视觉与状态信息的融合，使机器人学会从人类示范中泛化出灵巧操纵技能。数据集提供了分辨率达640×480的前置相机图像序列与6自由度关节状态向量，为端到端策略学习奠定了坚实基础。其发布填补了轻量化、标准化机器人操作基准的空白，促进了模仿学习算法在真实物理世界中的可复现性研究。

当前挑战

该数据集所面对的领域挑战在于，机器人操作任务中存在高维状态-动作空间与复杂接触动力学，模仿学习算法需从有限演示中提取鲁棒的行为策略，对抗观测噪声与任务变异性。构建过程中，数据采集依赖遥操作设备与人工示教，难以避免演示质量参差、动作轨迹不一致等问题；此外，多视角相机标定、关节状态同步及视频压缩编码均需精密设计，以保证数据时序对齐与物理真实性。这些挑战共同制约着数据集的可扩展性与策略迁移能力，亟需在数据增强、多模态融合及无监督预训练等方面寻求突破。

常用场景

经典使用场景

在机器人学习与模仿学习的交叉领域中，task3-TOY-clean数据集为研究者提供了一个精炼而完整的基准测试平台。该数据集聚焦于机械臂操作任务，记录了45段完整的操作轨迹，包含5465帧高保真视觉图像与六维关节状态信息，采样频率为10赫兹。通过捕捉shoulder_pan、shoulder_lift、elbow_flex、wrist_flex、wrist_roll及gripper这六个关键动作维度的协同变化，数据集完美呈现了从感知到动作的闭环映射过程，成为验证模仿学习算法在精密操作场景下效能的首选数据支撑。

衍生相关工作

围绕task3-TOY-clean数据集，学术界涌现出一系列引人注目的衍生工作。研究者基于该数据集的标准框架，发展了结合扩散模型与隐空间规划的轨迹生成方法，显著提升了操作策略在稀疏奖励场景下的探索效率。同时，该数据集驱动的多任务学习研究，成功利用其三个子任务间的共享决策模式，提出了动态权重分配机制，实现了跨任务知识的高效迁移。这些工作不仅深化了对于低维动作空间与视觉特征耦合的认知，也为设计更通用的机器人操作底座模型奠定了方法论基础。

数据集最近研究