RoboTwin_adjust_bottle_clean

Hugging Face2026-05-13 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/SUZ-tsinghua/RoboTwin_adjust_bottle_clean

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot项目创建，专用于机器人技术研究，是一个机器人操作数据集。它包含50个完整的操作序列（episodes），总计6902个数据帧，所有数据均划分至训练集。数据以parquet文件格式存储，总数据文件大小约为100MB，视频文件大小约为200MB。数据集记录了ALOHA机器人双臂系统的操作数据，帧率为15fps。数据特征包括：机器人状态观测（如双臂末端执行器的位置、四元数朝向和夹爪开合状态，共16维浮点数）；动作数据（20x14维的浮点数数组，包含双臂末端执行器的位置、轴角朝向和夹爪指令）；来自四个摄像头的图像观测，包括高架相机（cam_high）、左腕相机（cam_left_wrist）、右腕相机（cam_right_wrist）以及高架相机的操纵器掩膜图像（cam_high_manipulator_mask），所有图像均为3通道、240x320分辨率；此外还包含时间戳、帧索引、序列索引、全局索引和任务索引等元数据字段。该数据集适用于机器人模仿学习、强化学习、视觉运动策略学习等任务。

This dataset is created by the LeRobot project and is designed for robotics research, specifically as a robot manipulation dataset. It contains 50 complete operation episodes, totaling 6902 data frames, all allocated to the training set. The data is stored in parquet format, with a total data file size of approximately 100MB and video files of about 200MB. It records operation data from the ALOHA robot dual-arm system at a frame rate of 15fps. Features include: robot state observations (such as positions, quaternion orientations, and gripper states of both arm end-effectors, represented as 16-dimensional floating-point numbers); action data (a 20x14-dimensional floating-point array containing positions, axis-angle orientations, and gripper commands for both arms); image observations from four cameras, including an overhead camera (cam_high), left wrist camera (cam_left_wrist), right wrist camera (cam_right_wrist), and a manipulator mask image from the overhead camera (cam_high_manipulator_mask), all images are 3-channel with a resolution of 240x320; additionally, metadata fields such as timestamps, frame indices, episode indices, global indices, and task indices are included. This dataset is suitable for tasks like robot imitation learning, reinforcement learning, and visual-motor policy learning.

创建时间：

2026-05-11

原始信息汇总

RoboTwin_adjust_bottle_clean 数据集概述

本数据集是一个面向机器人操作任务的仿真数据集，使用 LeRobot 框架创建，旨在支持机器人双臂操作的模仿学习与策略训练。

基本信息

许可证： Apache-2.0
任务类别： 机器人学（Robotics）
机器人类型： ALOHA 双臂机器人
总片段数： 50 条任务演示
总帧数： 6902 帧
总任务数： 1 个
帧率： 15 FPS
数据集总大小： 数据文件约 100 MB，视频文件约 200 MB

数据划分

训练集： 全部 50 个片段（索引 0:50），无测试集或验证集划分。

数据特征

数据集包含以下特征字段：

特征名	数据类型	形状	描述
`observation.state`	float32	(16,)	机器人双（7个关节角度 + 1个夹爪开合度）共 16 维状态向量
`action`	float32	(20, 14)	20步未来动作序列，每步包含左/右臂 x、y、z 坐标、轴角、夹爪开合度共 14 维
`observation.images.cam_high`	图像	(3, 240, 320)	高角度全局相机 RGB 图像
`observation.images.cam_left_wrist`	图像	(3, 240, 320)	左腕部相机 RGB 图像
`observation.images.cam_right_wrist`	图像	(3, 240, 320)	右腕部相机 RGB 图像
`observation.images.cam_high_manipulator_mask`	图像	(3, 240, 320)	高角度机械臂掩码图像
`timestamp`	float32	(1,)	时间戳
`frame_index`	int64	(1,)	帧索引
`episode_index`	int64	(1,)	片段索引
`index`	int64	(1,)	全局索引
`task_index`	int64	(1,)	任务索引

状态与动作空间

状态空间（observation.state）： 共 16 维，依次为左臂 x、y、z、四元数(qw,qx,qy,qz)、夹爪开合度，右臂 x、y、z、四元数、夹爪开合度。
动作空间（action）： 20步未来动作（序列维度），每步 14 维，依次为左臂 x、y、z、轴角(3维)、夹爪开合度，右臂 x、y、z、轴角(3维)、夹爪开合度。

数据存储结构

数据文件： 打包为 Parquet 格式，路径 data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件： 录制为 MP4 格式，路径 videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专为机器人操作任务设计，聚焦于‘调整瓶子清洁’这一具体场景。数据通过A loha双机械臂平台采集，共包含50个演示回合（episodes），累计6902帧时序数据，帧率为15 FPS。每个回合记录了机械臂左右臂的16维状态信息，包括位置、四元数朝向及夹爪开合度，同时提供了20维动作空间（含14维动作向量），并同步采集了四路摄像头图像（cam_high、cam_left_wrist、cam_right_wrist及cam_high_manipulator_mask），图像尺寸为240×320像素。数据以parquet格式分块存储，视频则编码为MP4文件，整体数据与视频文件体积分别为100 MB和200 MB。

特点

该数据集的核心特点在于其精细的多模态融合与结构化设计。观测方面，它不仅包含机器人本体的低维状态（16维float32），还融合了高维视觉信息，特别是引入了操作臂掩膜图像（cam_high_manipulator_mask），为学习任务提供了明确的视觉引导。动作表征上，采用14维向量描述末端执行器的位姿与夹爪状态，且动作序列长度为20帧（chunks_size=1000），支持变长时序建模。此外，数据集提供了完整的元数据（如时间戳、帧索引、回合索引），便于时间对齐与序列化处理。所有回合均归属于单一任务，并统一划分为训练集（0:50），确保了任务内的一致性。

使用方法

该数据集适用于基于模仿学习或强化学习的机器人操作策略训练。用户可借助LeRobot框架直接加载parquet数据与视频，通过读取‘observation.state’与‘observation.images’作为输入，以‘action’序列为监督信号。典型应用包括行为克隆（Behavior Cloning）或离线强化学习，其中20帧的动作窗口可用于预测未来连续动作。多视角图像数据（含掩膜）可作为视觉编码器输入，与状态信息拼接后馈入策略网络。数据集的结构化元数据（episode_index、frame_index等）便于构建时序数据集或进行片段采样，而chunks_size参数提示用户需注意分块边界，推荐使用DataLoader按回合粒度迭代。

背景与挑战

背景概述

在机器人操作领域，灵巧操作能力的提升依赖于高质量、多样化的示教数据。RoboTwin_adjust_bottle_clean数据集诞生于这一背景之下，由Hugging Face开源社区依托LeRobot框架构建，采用ALOHA双臂遥操作平台采集，专注于瓶子清洁这一精细操作任务。该数据集创建于2024年前后，包含50个演示回合与6902帧时序数据，通过16维状态观测和14维动作空间记录双臂末端执行器的位姿与夹爪状态，并辅以四视角视觉观测。其研究核心在于利用遥操作数据驱动机器人学习复杂的清洁策略，为双臂协作与接触式操作任务提供标准化、可复现的基准资源，对推动机器人模仿学习与行为克隆领域的发展具有显著意义。

当前挑战

该数据集主要解决机器人双臂灵巧操作中精细化接触任务的模仿学习难题，特别是针对瓶子清洁这类需协调两只手臂的复杂操作。其挑战体现在两个方面：其一，在领域问题层面，如何从有限的50个演示中高效提取通用策略，以应对清洁任务中瓶身形状与污渍位置的变化，是模仿学习泛化性的核心瓶颈；其二，在构建过程层面，ALOHA机器人系统的遥操作数据采集受限于硬件精度与人类示教一致性，动作延迟与关节角度噪声可能引入方差，而50回合的小样本规模进一步加剧了数据稀疏性，对策略鲁棒的训练构成严峻挑战。

常用场景

经典使用场景

在机器人操作与模仿学习的前沿领域，RoboTwin_adjust_bottle_clean数据集为双机械臂协同完成精细化清洁任务提供了宝贵资源。该数据集基于ALOHA机器人平台采集，包含50个演示片段、近7000帧时序数据，每个样本均记录16维观测状态（如关节位置、夹爪状态）与14维动作序列，并配备高分辨率视觉信息。研究者可将其用于训练端到端的模仿学习模型，通过行为克隆或逆强化学习方法，让机器人从人类示教中习得调整瓶罐姿态并执行清洁的连贯操作技能。

实际应用

在产业落地层面，该数据集直接服务于家用服务机器人与工业精细装配场景。例如在智能家居中，机器人可习得安全擦拭易碎玻璃瓶、调整瓶罐摆放角度等日常清洁任务；在食品制药行业，其展示的无菌环境适配特性（通过mask图像屏蔽非操作区域）可迁移至试管清洗、药瓶分拣等精密操作。此外，数据集基于LeRobot框架构建的标准化格式，使得训练后的策略能便捷部署到UR5、Franka等真实机械臂平台，大幅降低了从仿真到实物的迁移成本。

衍生相关工作

基于该数据集催生了多项标志性工作：在算法层面，研究者通过分析其中的多视角图像与动作轨迹，发展了对比注意力模仿学习框架（如CAML），显著提升了长时域任务的成功率；在数据增强方向，衍生出基于扩散模型的运动轨迹插值方法，将50条原始演示数据扩展至千量级；在系统集成方面，出现结合大语言模型的上下文检索范式，使机器人通过“观察-推理-执行”循环自主修正清洁路径。这些工作共同构筑了从技能获取到泛化调用的完整技术图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集