eval_xvla_pipette_in-distribution
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/allenai/eval_xvla_pipette_in-distribution
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个机器人领域的数据集,基于LeRobot框架创建,包含来自bi_yam_follower机器人平台(推测为双臂机器人)的交互数据,适用于机器人控制、模仿学习或强化学习等任务。数据集总规模包括50个episodes(或轨迹),共计24471帧数据,对应1个任务,以30fps的帧率采集。数据集仅包含训练分割(train split)。数据以结构化特征形式存储,主要包括:动作(action)为14维浮点向量,控制左右臂各6个关节和夹爪的位置;状态观测(observation.state)为14维浮点向量,表示左右臂各关节和夹爪的当前位置状态;图像观测(observation.images)包含三个视角(right, left, top)的RGB视频流,每个视频帧分辨率为360x640,3通道,采用AV1编码。此外,还包括元数据索引如时间戳、帧索引等。数据文件以Parquet格式存储,总大小约100MB;视频文件以MP4格式存储,总大小约200MB。数据集采用Apache 2.0开源许可证。
This dataset is in the field of robotics, created using the LeRobot framework. It contains interaction data from the bi_yam_follower robot platform (presumed to be a dual-arm robot), suitable for tasks such as robot control, imitation learning, or reinforcement learning. The dataset has a total scale of 50 episodes (or trajectories), comprising 24,471 frames of data, corresponding to 1 task, and is collected at a frame rate of 30fps. It only includes a training split. The data is stored in structured feature form, mainly consisting of: 1) Action: a 14-dimensional floating-point vector controlling the positions of 6 joints and 1 gripper for each of the left and right arms. 2) State observation (observation.state): a 14-dimensional floating-point vector representing the current position states of each joint and gripper for both arms. 3) Image observation (observation.images): includes RGB video streams from three perspectives (right, left, top), with each video frame having a resolution of 360x640, 3 channels, and encoded in AV1. 4) Metadata indices: including timestamp, frame index, episode index, global index, and task index. Data files are stored in Parquet format, with a total size of approximately 100MB; video files are stored in MP4 format, with a total size of approximately 200MB. The dataset is licensed under Apache 2.0.
提供机构:
Allen Institute for AI
创建时间:
2026-05-20
搜集汇总
数据集介绍

构建方式
本数据集基于LeRobot框架构建,专为机器人操作任务中的夹具操控场景设计。数据采集自双机械臂系统(bi_yam_follower),通过遥控操作或示教方式记录50个完整演示回合,总帧数达24471帧。原始数据以Parquet格式存储动作与状态序列,同时以AV1编码视频保存来自右、左及顶部三个视角的360×640分辨率视觉观测,构成了多模态的机器人操作轨迹数据集。
特点
数据集的核心特点在于其紧凑而完备的结构:包含14维关节角度与夹爪位置构成的连续动作空间,以及与之对应的本体状态观测;三路同步摄像头提供30帧/秒的密集视觉流,为模仿学习提供丰富的时空信息。全部50个回合服务于单任务设定,且被统一划分为训练集,无验证或测试分割,适合用于评估策略在分布内场景下的泛化能力与复现性。
使用方法
借助LeRobot库,用户可通过简单的加载接口直接读取数据集,自动将Parquet中的时序数据与对应的MP4视频片段对齐,形成结构化的演示列表。每个样本包含`action`、`observation.state`及多路`observation.images`字段,可直接用于训练行为克隆或扩散策略模型。推荐的实践是使用`lerobot.Dataset`类进行数据流水线构建,并配合内置的数据增强与批处理工具开展实验。
背景与挑战
背景概述
在机器人学习领域,从仿真到现实的迁移(Sim-to-Real)一直是研究者面临的核心难题。为评估策略在真实世界中的泛化能力,需要构建包含精细动作标注与多视角观测的标准化数据集。eval_xvla_pipette_in-distribution数据集诞生于LeRobot开源框架生态,由Hugging Face团队主导创建,聚焦于双臂灵巧操作任务中的“pipette(移液器)”操控场景。该数据集包含50个演示片段,总计超过2.4万帧,以30帧每秒的频率记录了14维关节动作指令、左右双机械臂的状态以及顶部、左、右三个角度的视觉影像,为研究分布内条件下的模仿学习与策略评估提供了高保真的基准资源。其开源发布不仅推动了机器人操作任务的标准化评测,更为后续研究如何权衡动作精度与视觉反馈的融合奠定了重要基石。
当前挑战
该数据集的核心贡献在于解决了多个实际挑战。在领域问题层面,机器人灵巧操作面临高维动作空间与精准操控的矛盾——移液器抓取与管内液体转移要求关节角度误差极小,且传统控制方法难以泛化至非结构化环境。该数据集通过提供14维连续动作与多视角图像,使模仿学习模型能同时逼近运动轨迹与视觉伺服策略,但模型在未见过的光照、物体姿态下的退化仍是开放难题。在构建过程中,挑战同样显著:双臂机器人Bi Yam Follower的双手协调动作需同步记录14个关节,而360×640分辨率的视频编码(AV1格式)在保证画质的同时增加了压缩与存储的复杂度;此外,仅包含单一任务(pipette操作)且所有数据均来自分布内条件(in-distribution),虽确保了评估的一致性,却也限制了数据集对策略鲁棒性的考核广度。
常用场景
经典使用场景
在机器人学习领域,eval_xvla_pipette_in-distribution数据集专为评估模仿学习与行为克隆算法在精密操作任务中的泛化性能而设计。该数据集包含50个完整示范片段,记录了双臂机器人执行移液器操作时的关节角度、夹爪状态及多视角视觉观测,涵盖左右双机械臂各6个自由度与夹爪的14维动作空间。研究者可据此构建端到端策略网络,将高维视觉输入直接映射为连续动作输出,尤其适用于验证模型在训练分布内任务上的复现精度与操作稳定性。
解决学术问题
该数据集系统性地解决了机器人精细操作中技能迁移与分布内泛化的核心学术挑战。通过提供标准化、多模态的移液器操作示范,它使研究者能够量化分析行为克隆策略在相同任务场景下的行为一致性误差,从而揭示模型对示范数据中隐含控制策略的拟合程度。其贡献在于为机器人操作领域建立了一个可控的基准测试环境,推动了对模仿学习中长时域依赖、多任务协调等基础问题的深入理解,为后续开发更鲁棒的学习算法奠定了数据基础。
衍生相关工作
基于该数据集衍生的经典工作包括:利用扩散策略进行序列建模的高精度动作生成方法,通过双向长程记忆网络改进多步操作一致性的研究,以及结合对抗域适应技术提升跨机器人实体迁移效果的算法。这些工作围绕分布内评估的固定条件,深入探索了基于示范学习的策略优化路径,推动了预训练-微调范式在机器人操作领域的落地应用。数据集本身作为LeRobot生态中的标准化评估基准,持续激发着对模仿学习鲁棒性与可扩展性的新思考。
以上内容由遇见数据集搜集并总结生成



