egocentric_adjust_bottle_clean

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/SUZ-tsinghua/egocentric_adjust_bottle_clean

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot工具创建的机器人学数据集，专门用于人形机械手（human_mano）的操控任务。数据集包含50个完整的操作序列（episodes），总计7003个数据帧，采样频率为15 FPS。数据以分块Parquet文件形式组织，总数据文件大小约为100 MB，关联的视频文件大小约为200 MB。数据集仅包含训练集划分。数据内容包含多模态观测和动作指令：观测部分包括一个16维的浮点型状态向量（分别描述左、右手的位置、四元数朝向和夹爪状态），以及来自cam_high摄像头的RGB图像（3通道，240x320分辨率）和对应的机械手分割掩码图像。动作部分是一个20x14的浮点型矩阵，包含左右手末端执行器的位置、轴角表示法朝向和夹爪指令。此外，数据还包含时间戳、帧索引、episode索引、全局索引和任务索引等元数据字段。该数据集适用于机器人模仿学习、强化学习、视觉-动作策略训练等任务，特别是涉及双机械手协调操作的研究。

This dataset is a robotics dataset created using the LeRobot tool, specifically designed for manipulation tasks with humanoid robotic hands (human_mano). It contains 50 complete operation sequences (episodes), totaling 7003 data frames sampled at 15 FPS. The data is organized in chunked Parquet files, with a total data file size of approximately 100 MB and associated video files of about 200 MB. The dataset includes only a training set split. The data comprises multimodal observations and action instructions: observations include a 16-dimensional floating-point state vector (describing the position, quaternion orientation, and gripper state of the left and right hands, respectively), RGB images from the cam_high camera (3 channels, 240x320 resolution), and corresponding robotic hand segmentation mask images. The action part is a 20x14 floating-point matrix containing the position, axis-angle representation orientation, and gripper instructions for the left and right hand end-effectors. Additionally, the data includes metadata fields such as timestamps, frame indices, episode indices, global indices, and task indices. This dataset is suitable for tasks such as robot imitation learning, reinforcement learning, and vision-action policy training, especially for research involving coordinated dual-hand manipulation.

创建时间：

2026-05-11

搜集汇总

数据集介绍

构建方式

该数据集源自对日常清洁任务的精细化模拟，旨在为机器人学习提供贴近真实场景的交互数据。数据采集依托LeRobot框架，通过人类手部操作（human_mano）完成瓶子调整与清洁的连续动作。共计50个回合、7003帧有效数据，以15帧/秒的采样频率记录，并拆分为1000帧大小的数据块。存储格式采用高效的Parquet文件与MP4视频并行，分别保存运动状态与视觉信息，确保数据完整性与可复现性。

特点

数据集兼具多模态与高维度特性，涵盖16维机器人状态（包括双手位置、四元数姿态与夹爪开合）及14维动作指令（含轴角表示与夹爪控制），并融合高清图像观测（cam_high）与操作器掩码（manipulator_mask），以三通道240×320分辨率捕获视觉细节。全量数据集中于单一清洁任务，训练集覆盖全部回合，结构紧凑且任务专注，适用于精细化操控行为的学习与泛化。

使用方法

使用时通过LeRobot库直接加载，其默认配置指向data/*/*.parquet路径，自动识别50个回合的序列数据。开发者可依时间戳与帧索引对齐图像与状态信息，提取observation.state与observation.images作为输入，结合action序列构建模仿学习或强化学习模型。视频文件按分块索引组织，便于流式读取与可视化验证，适配机器人操控任务的端到端训练流程。

背景与挑战

背景概述

该数据集诞生于机器人学习与具身智能迅猛发展的时代背景下，旨在解决日常精细操作任务的模仿学习需求。由Hugging Face LeRobot社区创建，数据集聚焦于“自我中心视角下的瓶子清洁调整”这一具体任务，记录了50个演示片段，共计7003帧数据。数据采集采用人类手部（human_mano）作为机器人本体，包含16维机器人状态信息（双手位置、姿态与夹爪开合）以及20时序步长的14维动作序列。通过高分辨率摄像头与操作掩码图像，数据集为机器人从人类演示中学习复杂操作技能提供了标准化训练资源，对推动家庭服务机器人及人机协作领域的实证研究具有重要价值。

当前挑战

机器人精细操作面临的核心挑战在于如何从高维视觉与运动数据中可靠提取任务相关的状态变化规律。本数据集针对的单任务“瓶子清洁调整”要求机器人在自我中心视角下兼顾双手协同、工具使用与动态环境适应。构建过程中，数据采集的难点在于确保50个演示片段保持任务执行一致性的同时，涵盖足够多样的起始姿势与操作轨迹；跨模态对齐问题同样突出，需精确同步16维状态记录、14维动作序列与多视角视觉图像的时间戳，并处理因手部遮挡导致的掩码标注噪声。此外，有限的数据规模（100MB）与单一任务设定限制了模型的泛化能力，亟需在数据增强与跨任务迁移策略上寻求突破。

常用场景

经典使用场景

在机器人操作与具身智能研究领域，数据集是实现模仿学习与行为克隆算法训练的基础。该数据集聚焦于单任务——调整瓶子清洁姿态，通过人类遥操作采集了50个演示回合，共7003帧高精度状态-动作序列。每帧包含双臂16维状态信息（位置、四元数与夹爪开合）及20步前瞻动作轨迹，配合高分辨率俯视摄像头图像及机械臂掩膜。研究者常将其作为验证模仿学习算法在小样本、精细化操作任务上泛化性能的基准，尤其适用于探索动作分块（Action Chunking）与视觉-运动联合表征的有效性。

解决学术问题

该数据集精准回应了机器人学习领域中数据稀缺性与动作时序建模两大核心挑战。传统演示数据集常因数量不足或状态空间不完整导致策略泛化失败，而本数据集通过提供完整的多模态观测（状态+图像）与稠密的14维动作流，支持了从单步映射到时序预测的学术探索。它使得研究者得以系统性地对比行为克隆与扩散策略在精细操作场景下的表现差异，并推动了关于动作分块长度对任务成功率的量化分析，为理解人机协作中的运动规划机制提供了实证基础。

衍生相关工作

基于该数据集，学界已孵化出多项富有影响力的衍生工作。一方面，它常与LeRobot框架结合，被用作验证动作分块变换器（Action Chunking Transformer）框架的标准测试集，推动时序集成预测策略在精细操作中的精度提升。另一方面，其多视图视觉输入催生了针对遮挡鲁棒性的感知模块改进研究，例如引入注意力掩膜自编码器以增强对操作目标局部特征的编码。此外，该数据集也被扩展到有条件策略模仿的对比学习框架中，用于探索跨任务共享特征空间的构建，为少样本机器人编程奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集