egocentric_adjust_bottle

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/SUZ-tsinghua/egocentric_adjust_bottle

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，采用Apache 2.0许可协议，属于机器人学领域。数据集包含350个episodes，总计26236帧，涉及1个任务。数据以parquet格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为15fps。数据集结构包括训练集划分（0:350）。数据集特征包括观察状态（16维浮点数，包含左右手的x、y、z坐标，四元数qw、qx、qy、qz，以及夹持器状态）、动作（20x14的浮点数矩阵，包含左右手的x、y、z坐标，轴角1、2、3，以及夹持器状态）、观察图像（3通道，240x320像素）、时间戳、帧索引、episode索引、索引和任务索引。适用于机器人控制、动作预测等任务。

创建时间：

2026-05-02

原始信息汇总

数据集概述：egocentric_adjust_bottle

数据集地址: https://huggingface.co/datasets/SUZ-tsinghua/egocentric_adjust_bottle
许可证: Apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot

数据集描述

该数据集基于 LeRobot 框架构建，专注于机器人操作任务——调整瓶子。

数据集规模

总片段数 (episodes): 350
总帧数: 26,236
总任务数: 1
帧率 (fps): 15
数据文件大小: 100 MB
视频文件大小: 200 MB
数据切块大小 (chunks_size): 1000

数据集划分

训练集: 片段的索引 0 至 349，共 350 个片段用于训练。无独立验证集和测试集。

机器人类型

机器人型号: human_mano（模拟人手的机器人平台）

数据结构

数据集包含 .parquet 数据文件和 .mp4 视频文件。

特征（Features）

特征名称	数据类型	形状	说明
observation.state	float32	(16,)	机器人状态，包含左右手的3D位置(x,y,z)、四元数姿态(qw,qx,qy,qz)以及夹爪(gripper)状态共16维。
action	float32	(20, 14)	动作序列，每个时间步包含左右手位置(x,y,z)、轴角表示姿态(axis_angle1,axis_angle2,axis_angle3)以及夹爪状态，共14维。该特征是一个20步的动作轨迹。
observation.images.cam_high	图像	(3, 240, 320)	高视角摄像头图像，通道数为3（RGB），图像高度240像素，宽度320像素。
timestamp	float32	(1,)	时间戳
frame_index	int64	(1,)	帧索引
episode_index	int64	(1,)	片段索引
index	int64	(1,)	全局索引
task_index	int64	(1,)	任务索引

引用信息

暂无具体引用格式。

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专注于机器人抓取与调整瓶子的任务。数据采集使用人类手部动作捕捉（human_mano）作为机器人类型，通过模拟人手操作的方式记录动作轨迹。数据集包含350个演示片段，总计26236帧图像和动作序列，以15帧/秒的采样频率记录。数据存储采用Parquet格式，并配有来自高角度摄像头（cam_high）的同步视频，视频以MP4格式保存，覆盖所有动作执行过程。特征空间涵盖16维的状态向量（包括左右手位置、四元数姿态及夹爪开合度）和20步、每步14维的动作序列，为模仿学习提供了丰富的时空信息。

特点

数据集的核心特点在于其任务单一性（仅涉及瓶子调整）与多模态数据的深度融合。状态与动作维度设计精细，状态向量包含6自由度位姿与夹爪状态，而动作序列则跨越20个时间步，体现了对未来轨迹的显式建模。图像数据与状态序列的高度同步，使数据集兼具视觉与运动学信息的互补性。此外，数据分割仅包含训练集（全部350个片段），便于端到端模型的自监督或模仿学习训练。总体规模约为100MB的Parquet数据和200MB的视频文件，兼顾了数据丰富性与存储效率。

使用方法

数据集可通过LeRobot库的API直接加载，用户只需指定配置为'default'即可自动读取parquet文件中的状态、动作和图像数据。使用Python环境安装LeRobot后，可调用`load_dataset('egocentric_adjust_bottle')`获取结构化数据，其中特征字段如`observation.state`和`action`可直接用于模型输入与输出。由于数据已预设chunk分片（每片1000帧），用户可根据需求按片段或批次迭代使用。结合提供的元信息（如机器人类型和采集帧率），该数据集适合用于训练行为克隆、逆强化学习或离线强化学习等算法，尤其适合需要预测多步动作的时序模型评估。

背景与挑战

背景概述

在机器人学习领域，模仿学习与灵巧操作任务的研究日益成为焦点，然而高质量的自我中心视角（egocentric）操控数据集仍相对稀缺。egocentric_adjust_bottle数据集由LeRobot社区基于Apache-2.0许可协议创建，聚焦于人类通过双手（human_mano）对瓶子进行精细调整的单一任务。该数据集构建于2024年前后，共包含350个演示片段与26,236帧图像，以15帧/秒的速率记录，通过高分辨率摄像头捕捉第一人称视角的视觉信息，并同步采集16维状态特征（包括双手位置、四元数姿态与夹爪开合度）及多维动作指令。其结构化的数据形式（parquet存储、视频与特征分离）为机器人从人类演示中学习双手协调与物体姿态调整提供了标准化基准，有助于推动家庭服务与工业装配场景中的灵巧操作研究。

当前挑战

该数据集所解决的领域核心挑战在于自我中心视角下的双手灵巧操作建模：相比固定的外部视角，第一人称视觉存在自遮挡与动态背景干扰，且双手协调涉及高精度位姿估计与抓取调整的时序耦合。在构建过程中，数据集面临三大具体挑战：首先，如何通过Mano手部模型精准捕捉21个自由度的手部运动轨迹，并转化为统一的16维观测向量；其次，在仅有单一任务（瓶子调整）且训练集未分割验证集的情况下，需保证350个片段内动作多样性与运动平滑性，避免过拟合；最后，视频与parquet数据需按1000帧分块存储，同时维持时序对齐与100 MB的数据容量限制，这要求高效的压缩策略与坐标系归一化处理。

常用场景

经典使用场景

在机器人学习领域，egocentric_adjust_bottle数据集因其以第一人称视角捕捉的双手协调操作数据而备受瞩目。该数据集记录了350个完整的操作片段，涵盖人类用手部（human_mano）调整瓶子的精细动作，包含位置、姿态和夹爪状态等16维状态信息，以及20步长的14维动作序列。研究者常基于此数据集训练模仿学习模型，使其从人类示范中习得灵巧操作策略，尤其适用于需要双手协同配合的物体调整任务，如拧瓶盖或重新定位瓶身。

衍生相关工作

egocentric_adjust_bottle的出现催生了多项衍生研究工作。研究者们基于其标准化的状态空间和动作空间，开发了针对双手操作任务的注意力机制增强模型（如利用cam_high图像指导关键帧选择），并探索了将Sim-to-Real迁移策略与真实人类数据结合的方法。此外，该数据集常被用作LeRobot框架的基准测试案例，用于评估不同示教学习算法（如动作分块、残差策略）在精细调节任务上的表现，推动了可复现的机器人学习研究生态建设。

数据集最近研究