xlerobot_multitask_part10

Hugging Face2026-01-23 更新2026-01-24 收录

下载链接：

https://huggingface.co/datasets/ArthurWangSawau/xlerobot_multitask_part10

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，主要用于机器人技术领域。数据集包含5个episodes，3694帧，1个任务，数据文件大小为100MB，视频文件大小为0.001MB，帧率为30fps。数据集的特征包括动作（action）、观察状态（observation.state）、时间戳（timestamp）、主图像（observation.images.main）、左腕图像（observation.images.left_wrist）、右腕图像（observation.images.right_wrist）等。

创建时间：

2026-01-20

原始信息汇总

数据集概述

基本信息

数据集名称: xlerobot_multitask_part10
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可协议: Apache-2.0
任务类别: 机器人学
相关标签: LeRobot

数据集结构

数据格式: Parquet 文件
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
代码库版本: v3.0
机器人类型: 未指定
总任务数: 1
总情节数: 5
总帧数: 3694
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 0.001 MB
帧率: 30 FPS
数据划分: 训练集 (0:5)

数据特征

动作

数据类型: float32
形状: [14]
特征名称:
- right_arm_shoulder_pan.pos
- right_arm_shoulder_lift.pos
- right_arm_elbow_flex.pos
- right_arm_wrist_flex.pos
- right_arm_wrist_roll.pos
- right_arm_gripper.pos
- left_arm_shoulder_pan.pos
- left_arm_shoulder_lift.pos
- left_arm_elbow_flex.pos
- left_arm_wrist_flex.pos
- left_arm_wrist_roll.pos
- left_arm_gripper.pos
- head_motor_1.pos
- head_motor_2.pos

观测状态

数据类型: float32
形状: [14]
特征名称: 与动作特征列表相同

时间戳

数据类型: float32
形状: [1]
特征名称: 未指定

观测图像（主视角）

数据类型: 视频
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30
- 通道数: 3
- 包含音频: 否

观测图像（左手腕视角）

数据类型: 视频
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息: 与主视角图像相同

观测图像（右手腕视角）

数据类型: 视频
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息: 与主视角图像相同

索引信息

帧索引: int64, 形状 [1]
情节索引: int64, 形状 [1]
索引: int64, 形状 [1]
任务索引: int64, 形状 [1]

引用信息

主页: 未提供
论文: 未提供
BibTeX 引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集对于模型训练至关重要。xlerobot_multitask_part10数据集依托LeRobot开源框架构建，通过记录双臂机器人执行任务过程中的多模态数据形成。该数据集以30帧每秒的速率采集，涵盖5个完整任务片段，总计3694帧数据，并以分块Parquet文件格式存储，每块约1000帧，确保了数据的高效存取与处理。

特点

该数据集的核心特征在于其丰富的多模态观测与精确的动作标注。观测部分不仅包含14维的机器人关节状态向量，还整合了来自主摄像头、左腕摄像头和右腕摄像头的三路视频流，每路视频分辨率均为640x480，采用AV1编码。动作空间同样为14维，精确对应左右机械臂各6个关节及头部2个电机的位姿控制，为模仿学习与强化学习算法提供了细粒度的状态-动作对应关系。

使用方法

对于研究者而言，该数据集可直接用于机器人策略学习模型的训练与评估。数据按训练集划分，可通过加载指定的Parquet文件路径访问。每个数据样本包含帧索引、片段索引等元数据，便于进行序列化学习。使用者可依据`observation.state`和`observation.images`构建状态表示，并利用`action`作为监督信号，开发端到端的机器人控制模型，推动双臂协调操作等复杂任务的研究进展。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的数据集是推动算法进步与模型泛化能力提升的关键基石。xlerobot_multitask_part10数据集作为LeRobot项目的一部分，由HuggingFace社区于近期构建并开源，旨在为机器人多任务学习提供丰富的真实世界交互数据。该数据集聚焦于双臂仿人机器人的操作任务，通过记录14维关节位置动作、多视角视觉观测（包括主视角、左右腕部视角）以及时间戳信息，为研究者探索端到端模仿学习、强化学习及跨任务知识迁移等核心问题提供了宝贵资源。其采用Apache 2.0许可证开放，体现了开源协作精神，有望加速机器人智能在复杂环境中的适应性研究。

当前挑战

该数据集致力于解决机器人多任务操作中的泛化与适应性挑战，即如何让单一模型从有限演示中学习并执行多样化的物理交互任务。然而，构建过程面临显著困难：真实机器人数据采集成本高昂，需协调多传感器同步（如关节编码器与多摄像头），确保数据对齐与一致性；高维动作空间（14维）与多模态观测（图像、状态）的融合增加了数据处理与存储复杂度。此外，数据规模相对有限（仅5个片段），可能制约模型在未见任务上的表现，而缺乏详尽的任务描述与标注则对监督学习方法的适用性构成挑战。

常用场景

经典使用场景

在机器人学习领域，多模态数据融合对于提升智能体在复杂环境中的感知与决策能力至关重要。xlerobot_multitask_part10数据集以其包含的双臂机器人关节位置、时序状态及多视角视觉信息，为模仿学习与强化学习算法提供了丰富的训练素材。该数据集经典地应用于机器人技能迁移研究，通过从人类演示中学习动作序列，使机器人能够执行精细的操作任务，如物体抓取与装配，从而在仿真与真实世界之间搭建起桥梁。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究。例如，基于其多视角视频与状态序列，学者们开发了端到端的视觉运动策略网络，实现了从原始像素到关节控制的直接映射。此外，该数据也常被用于评估分层强化学习框架在长时程任务中的表现，以及探索元学习算法在快速适应新任务方面的潜力，推动了机器人学习领域的算法创新。

数据集最近研究