adapt1

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/yinongh/adapt1

下载链接

链接失效反馈

官方服务：

资源简介：

该机器人操作数据集使用LeRobot工具创建，采用Apache-2.0许可证。数据集包含一个完整的操作episode，总计208个时间帧（30 fps），对应1个任务和6个视频片段。数据以Parquet文件格式存储，视频以MP4格式存储。数据集记录了Droid机器人的操作过程，包含丰富的多模态观测和控制指令。具体特征包括：8维关节空间的动作和状态（关节1-7及夹爪）、10维的右末端执行器位姿（6D旋转、3D平移和夹爪状态）作为观测和动作目标、来自三个不同视角（左Azure Kinect、前Azure Kinect、腕部相机）的彩色图像（720x1280x3）和深度/对齐深度图像（720x1280x1），以及时间戳、帧索引、episode索引、数据索引和任务索引等元数据。该数据集适用于机器人模仿学习、视觉伺服控制、多模态策略学习等研究任务。

创建时间：

2026-05-13

原始信息汇总

数据集概述：adapt1

该数据集是一个面向机器人领域的轻量级数据集，使用 LeRobot 框架创建。

许可协议：Apache-2.0
任务类别：机器人 (robotics)
标签：LeRobot

数据集规模与结构

总片段数 (Episodes)：1
总帧数 (Frames)：208
总任务数 (Tasks)：1
总视频数 (Videos)：6
帧率 (FPS)：30
机器人类型：Droid
数据分割：仅包含训练集（train），对应片段索引 0:1
数据格式：Parquet 文件，存储路径为 data/*/*.parquet
视频格式：MP4 文件

数据特征

数据集中包含多种特征，主要包括动作、状态观测和图像观测，具体如下：

特征名称	数据类型	形状	维度命名	说明
`action`	float32	[8]	`joint_1` 至 `joint_7`, `gripper`	关节与夹爪的动作指令
`observation.state`	float32	[8]	`joint_1` 至 `joint_7`, `gripper`	机器人关节与夹爪的状态反馈
`observation.right_eef_pose`	float32	[10]	`rot_6d_0` 至 `rot_6d_5`, `trans_0` 至 `trans_2`, `gripper_articulation`	右端执行器的6D旋转、3D平移及夹爪关节位姿
`action.right_eef_pose`	float32	[10]	`rot_6d_0` 至 `rot_6d_5`, `trans_0` 至 `trans_2`, `gripper_articulation`	右端执行器的6D旋转、3D平移及夹爪关节动作指令
`observation.images.cam_azure_kinect_left.transformed_depth`	video	[720, 1280, 1]	`height`, `width`, `channels`	左侧 Azure Kinect 变换后的深度图像（对齐到彩色图像）
`observation.images.cam_azure_kinect_left.color`	video	[720, 1280, 3]	`height`, `width`, `channels`	左侧 Azure Kinect 原始彩色图像
`observation.images.cam_azure_kinect_front.transformed_depth`	video	[720, 1280, 1]	`height`, `width`, `channels`	前置 Azure Kinect 变换后的深度图像（对齐到彩色图像）
`observation.images.cam_azure_kinect_front.color`	video	[720, 1280, 3]	`height`, `width`, `channels`	前置 Azure Kinect 原始彩色图像
`observation.images.cam_wrist.color`	video	[720, 1280, 3]	`height`, `width`, `channels`	腕部相机 RGB 彩色图像
`observation.images.cam_wrist.depth`	video	[720, 1280, 1]	`height`, `width`, `channels`	腕部相机深度图像
`timestamp`	float32	[1]	-	时间戳
`frame_index`	int64	[1]	-	帧索引
`episode_index`	int64	[1]	-	片段索引
`index`	int64	[1]	-	全局索引
`task_index`	int64	[1]	-	任务索引

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，采用droid机器人平台采集操作演示数据，通过Azure Kinect深度相机与腕部摄像头同步记录多视角视觉信息，并利用机器人关节编码器与末端执行器位姿传感器采集动作序列。数据以Parquet格式分块存储，每块容量上限为1000个时间步长，同时将视频流独立保存为MP4文件，确保高效存取。

特点

数据集涵盖单一任务场景，包含208帧时序数据与6段同步视频，采样频率为30帧/秒。其核心特点在于多模态融合：既包含8维关节空间状态与动作指令，又提供4个相机视角的色彩图和深度图，其中深度图像已对齐至彩色空间。此外，10维末端执行器位姿数据采用旋转6D表示，增强了姿态控制的数值稳定性。

使用方法

用户可通过LeRobot库的DataLoader直接加载parquet文件与视频流，根据'action'字段提取机器人控制指令，利用'observation.state'获取关节反馈，同时调用'observation.images'下的多视角视觉数据进行模仿学习。数据预设的训练/测试分割比例为1:0，适合完整的单任务策略评估。

背景与挑战

背景概述

在机器人学习领域，从真实世界采集的高质量、多模态示范数据是训练具身智能体执行复杂操作任务的核心基石。adapt1数据集由Hugging Face团队基于LeRobot框架于近期创建，聚焦于Droid型机械臂的单任务操作场景，仅包含1个回合、208帧的精细动作-状态-图像序列。该数据集以Apache-2.0协议开源，旨在为模仿学习与行为克隆提供高度结构化的标准化样本，其记录信息涵盖7个关节角度与夹爪状态的完整运动学状态、右手末端执行器的6自由度旋转和平移位姿，以及左右Azure Kinect、腕部RGB-D相机的多视角高清视频流。尽管规模微小，adapt1作为LeRobot生态的示例性数据，揭示了未来大规模、多任务机器人数据集构建的范式雏形，推动了具身智能研究中数据标准化与可复现性的发展。

当前挑战

当前机器人学习面临的首要挑战在于，从有限示范中泛化至未知环境与物体的能力不足。adapt1数据集仅包含单一任务、单回合演示，无法覆盖现实场景中物体位姿、光照、背景的多样性，使得模型极易过拟合于特定配置，难以应对领域漂移与动态干扰。构建此类数据集的过程中，挑战集中于精细标注与多模态对齐：机械臂关节角的读取依赖高精度编码器，而多摄像头深度图与彩色图需经亚像素级配准才能统一至机器人基坐标系；此外，30帧每秒的高频采样与6路视频流的同步存储对硬件触发与数据管道提出了严苛的实时性要求，任何帧偏移都将破坏动作-观测的时间因果链，导致学习策略失效。

常用场景

经典使用场景

在机器人学习与操作领域，adapt1数据集为模仿学习与行为克隆提供了高质量的基准资源。该数据聚焦于单任务场景，通过一台Droid机器人采集了208帧连续动作轨迹，涵盖7个关节角度与一个夹爪动作，同时配备多视角视觉输入：包括Azure Kinect的前视与左视彩色图像及变换深度图、腕部RGB-D图像等。此类多模态观测与动作序列的关联结构，使之成为训练端到端机器人操控模型的经典素材，尤其在精细操作如物体抓取、装配等任务中展现卓越价值。

解决学术问题

adapt1数据集的核心贡献在于缓解了机器人领域长期面临的数据稀缺与可复现性困境。它提供了标准化传感器采集格式与完整动作标签，使研究者能聚焦于视觉运动策略的泛化能力探索，例如如何从有限演示中提取有效的控制先验。通过该数据集，学术界得以系统验证视觉模仿学习在非结构化环境中的鲁棒性，推动了对跨视角融合与状态空间泛化瓶颈的理解，为后续大模型在机器人基础模型上的应用铺垫了实证基础。

衍生相关工作

基于adapt1数据集的特性，衍生出了多个影响深远的经典工作。在策略学习层面，研究者借鉴其动作空间定义方式，开发了扩散策略与基于Transformer的决策模型，提升了序列生成质量。在表征学习方向，该数据驱动的多视角融合方案启发了机器人感知领域的隐式三维表征方法，如NeRF在操作任务中的引入。此外，该数据格式被LeRobot框架广泛采用，进一步催化了标准化机器人数据集生态的构建，催生了诸如DROID等多种专业数据集的涌现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集