xlerobot_xbox_dataset_part4

Hugging Face2026-01-12 更新2026-01-13 收录

下载链接：

https://huggingface.co/datasets/ArthurWangSawau/xlerobot_xbox_dataset_part4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，但未提供详细的目的或内容描述。根据数据集结构部分，该数据集包含机器人动作、观察状态、时间戳和图像等特征。具体包括右臂和左臂的肩部、肘部、腕部及抓取器的位置，以及头部两个电机的状态。观察部分包含主摄像头、左腕摄像头和右腕摄像头拍摄的视频数据，视频分辨率为480x640，帧率为30fps。数据集总共有1个任务，413帧数据，数据文件大小为100MB。

创建时间：

2026-01-06

原始信息汇总

数据集概述

基本信息

数据集名称: ArthurWangSawau/xlerobot_xbox_dataset_part4
创建工具: LeRobot
许可协议: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总情节数: 1
总帧数: 413
总任务数: 1
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 0.001 MB
帧率: 30 FPS
数据分割: 训练集（train）包含全部数据（索引0:1）
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

数据集包含以下特征字段：

动作

数据类型: float32
形状: [14]
描述: 包含14个关节的位置指令，具体为：
- right_arm_shoulder_pan.pos
- right_arm_shoulder_lift.pos
- right_arm_elbow_flex.pos
- right_arm_wrist_flex.pos
- right_arm_wrist_roll.pos
- right_arm_gripper.pos
- left_arm_shoulder_pan.pos
- left_arm_shoulder_lift.pos
- left_arm_elbow_flex.pos
- left_arm_wrist_flex.pos
- left_arm_wrist_roll.pos
- left_arm_gripper.pos
- head_motor_1.pos
- head_motor_2.pos

观测状态

数据类型: float32
形状: [14]
描述: 包含14个关节的观测位置，名称与“动作”特征完全相同。

时间戳

数据类型: float32
形状: [1]

图像观测

包含三个视频流观测，均具有以下属性：

数据类型: video
形状: [480, 640, 3] （高度，宽度，通道）
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: false

具体图像特征包括:

observation.images.main （主视角）
observation.images.left_wrist （左腕视角）
observation.images.right_wrist （右腕视角）

索引信息

frame_index: 帧索引，数据类型 int64，形状 [1]。
episode_index: 情节索引，数据类型 int64，形状 [1]。
index: 通用索引，数据类型 int64，形状 [1]。
task_index: 任务索引，数据类型 int64，形状 [1]。

其他信息

代码库版本: v3.0
机器人类型: 未指定
主页: 信息缺失
相关论文: 信息缺失
引用信息: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人学领域，高质量的数据集对于推动模仿学习与强化学习算法的进步至关重要。xlerobot_xbox_dataset_part4数据集依托LeRobot开源框架构建，通过记录双臂机器人执行任务过程中的多模态数据而形成。该数据集以Parquet格式存储，包含一个完整任务片段，总计413帧数据，采样频率为30赫兹，涵盖了机器人关节状态、动作指令以及多视角视觉信息，为算法训练提供了结构化的时序轨迹。

特点

该数据集在机器人操作任务数据集中展现出鲜明的多模态特性，不仅包含14维的关节位置状态与动作向量，还集成了来自主摄像头、左右腕部摄像头的三路同步视频流，每路视频分辨率均为640x480，采用AV1编码。数据以分块形式组织，支持高效读取与处理，且所有特征均标注了时间戳与索引，便于进行时序分析与模型训练。这种丰富的传感器融合设计为复杂环境下的机器人行为理解提供了坚实基础。

使用方法

研究者可利用该数据集进行机器人模仿学习或离线强化学习算法的开发与验证。通过加载Parquet文件，用户可以访问按帧组织的状态-动作对及对应视频帧，进而构建训练样本。数据集已预设训练划分，支持直接用于模型训练。在使用过程中，建议结合LeRobot工具库进行数据加载与预处理，以充分利用其多模态特性，例如将关节数据与视觉信息结合，训练端到端的策略模型或进行行为克隆研究。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的数据集对于推动模仿学习与强化学习算法的进步至关重要。xlerobot_xbox_dataset_part4作为LeRobot项目的一部分，由HuggingFace社区于近期创建，旨在为双臂仿人机器人提供真实世界的操作数据。该数据集聚焦于机器人动作与状态观测的同步记录，涵盖了14维关节位置控制指令及多视角视觉信息，核心研究问题在于如何利用异构传感器数据提升机器人在复杂环境中的自主操作能力。尽管相关论文与主页信息暂未公开，但其结构化设计已为机器人行为克隆与策略学习提供了重要基准，对促进开源机器人生态发展具有潜在影响力。

当前挑战

该数据集致力于解决机器人操作任务中的动作-观测对齐挑战，即如何从多模态数据中学习精确且鲁棒的控制策略。构建过程中面临多重困难：首先，数据采集需协调高维关节控制与多摄像头视频流，确保时序同步与数据完整性；其次，异构数据（如视频与状态向量）的高效存储与检索要求精巧的工程设计，以平衡存储开销与访问速度。此外，真实环境下的传感器噪声、光照变化及机械误差使得数据清洗与标注变得复杂，这些因素共同构成了数据集构建与利用的核心挑战。

常用场景

经典使用场景

在机器人学习领域，xlerobot_xbox_dataset_part4数据集以其多模态观测与动作序列的精细记录，成为模仿学习与行为克隆研究的经典资源。该数据集通过捕捉双机械臂及头部关节的位置状态，结合主视角与腕部摄像头视频，为研究者提供了模拟真实操作任务的丰富轨迹数据，常用于训练端到端的策略网络，以复现人类演示的复杂操作行为。

解决学术问题

该数据集有效应对了机器人学中样本效率低下与泛化能力不足的核心挑战。通过提供高维度的连续动作空间与同步视觉观测，它支持了从演示数据中学习稳健策略的算法验证，促进了离线强化学习与视觉运动控制等领域的方法创新，为解决真实世界任务中的状态估计与动作规划问题提供了关键基准。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在模仿学习架构的优化与多模态融合模型的探索上。许多研究利用其序列化轨迹训练时序预测模型，或结合逆动力学方法提升策略的泛化性能；同时，基于视觉特征与状态联合嵌入的表示学习也借此推进，为机器人感知与决策一体化提供了重要参考范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集