eval_xvla_pipette_ood
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/allenai/eval_xvla_pipette_ood
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个机器人任务数据集,使用LeRobot平台创建,专为双手机器人(bi_yam_follower)设计。它包含23个完整任务片段(episodes),总计11466帧数据,涵盖3种不同任务。数据以Parquet格式存储,总数据文件大小约100MB,视频文件大小约200MB,视频帧率为30fps。核心特征包括:动作(action)为14维浮点数组,分别对应左、右机械臂的6个关节位置和夹爪位置;状态观测(observation.state)同样为14维浮点数组,反映机器人关节状态;多视角图像观测(observation.images)包括右侧(right)、左侧(left)和顶部(top)三个视角的RGB视频流,分辨率均为360x640,3通道,采用AV1编码;此外还包含时间戳(timestamp)、帧索引(frame_index)、片段索引(episode_index)、全局索引(index)和任务索引(task_index)。数据集仅提供训练集(splits.train: 0:23),适用于机器人模仿学习、强化学习或行为克隆等任务,尤其适合研究基于多视角视觉输入的双手机器人控制。数据集采用Apache 2.0开源许可证。
This dataset is a robotic task dataset created using the LeRobot platform. It is designed for dual-arm robots (bi_yam_follower) and includes 23 complete task episodes, totaling 11466 frames of data, covering three different tasks. The data is stored in Parquet format, with a total data file size of approximately 100MB and video file size of about 200MB, with a video frame rate of 30fps. Core features include: action as a 14-dimensional floating-point array corresponding to the 6 joint positions and gripper positions of the left and right robotic arms; state observation (observation.state) as a 14-dimensional floating-point array reflecting the robots joint states; multi-view image observations (observation.images) include RGB video streams from the right, left, and top perspectives, each with a resolution of 360x640, 3 channels, encoded with AV1; additionally, it contains timestamps, frame indices, episode indices, global indices, and task indices. The dataset only provides a training set (splits.train: 0:23) and is suitable for tasks such as robot imitation learning, reinforcement learning, or behavior cloning, particularly for research on dual-arm robot control based on multi-view visual input. The dataset is licensed under Apache 2.0.
提供机构:
Allen Institute for AI
创建时间:
2026-05-20
搜集汇总
数据集介绍

构建方式
该数据集基于LeRobot框架构建,专注于评估机器人操作策略在分布外场景中的泛化能力。其数据源自双机械臂系统(bi_yam_follower)在三种不同任务下的遥操作采集,共包含23个演示回合(episodes)与11466帧时序数据。每个回合记录了14维关节动作指令(包括左右臂各6个自由度及夹爪位置)及对应的观测状态,并通过右、左、顶部三个视角的640×360像素视频流捕捉环境视觉信息。数据以分块形式存储,每1000帧为一个chunk,训练集与完整数据集重合,未设验证或测试分割,旨在强化模型对未知任务的适应能力。
特点
数据集的核心特性在于其明确的分布外(out-of-distribution, OOD)评估定位。相较于常规机器人数据集,它刻意压缩了任务数量(仅3类)与演示规模(23个回合),以此模拟现实中训练数据稀缺且与测试场景存在分布偏移的情形。双机械臂的高自由度动作空间(14维连续控制)结合多视角视频输入,为策略网络提供了丰富的状态表征,但也因环境动态与视觉遮挡等因素,对模型的鲁棒性构成严峻挑战。此外,视频采用AV1编码以平衡画质与存储效率,360p分辨率虽低于常见标准,却更贴合边缘部署场景的计算约束。
使用方法
研究者可通过LeRobot库直接加载数据集,利用其预定义的默认配置自动解析parquet格式的时序动作与状态数据,以及MP4格式的多视角视频。典型使用流程包括:首先,基于train分割(0至22号回合)训练模仿学习或强化学习策略;其次,在无标注测试集上评估模型在OOD场景下的表现——需注意数据本身未提供明确的测试分割,用户应自行划分或借助外部工具模拟分布外条件。动作与观测空间均为14维连续值,可配合标准归一化与平滑后处理;视频帧需经resize与归一化后输入视觉编码器。推荐结合LeRobot的评估工具链,计算任务成功率与动作误差等指标。
背景与挑战
背景概述
eval_xvla_pipette_ood数据集专为机器人操作领域中的分布外泛化能力评估而构建,诞生于LeRobot开源框架生态之中。该数据集由Hugging Face平台托管的机器人学习社区贡献,核心围绕双臂协作机械臂(robot_type: bi_yam_follower)在复杂环境下的精细操作任务展开。其研究问题聚焦于评估视觉-语言-动作(XVLA)模型在面对未见过的物体、布局或动力学条件下的鲁棒性,通过录制的23个示范片段(共11466帧)和三种任务类型,为机器人学习社区提供了标准化基准。该数据集采用Apache-2.0许可证开放,其结构化设计(包含14维动作和状态空间、多视角视觉输入及元信息标注)促进了从模仿学习到强化学习的跨方法对比,对推动具身智能在真实物理世界中的泛化性研究具有里程碑意义。
当前挑战
该数据集所解决的领域挑战集中于机器人操作中的分布外泛化问题:传统模型在训练集内表现优异,但面对环境改变(如光照、背景、物体位姿变化)时性能骤降,而本数据集通过刻意采集边缘工况数据,迫使算法学习超越单一场景的鲁棒策略。构建过程中面临的挑战包括:a) 缺乏大规模注释的异质环境数据,需在有限资源下通过23个示范片段(约100MB数据)平衡采集效率与多样性;b) 高精度的双机械臂联合运动学建模(14自由度动作空间)要求同步记录多视角视觉流(30fps下360×640分辨率的视频)与关节状态,增加了硬件同步与数据清洗的难度;c) 任务设计的模糊性——如何定义“分布外”边界以避免任务过简或过难,是确保评估有效性的核心难点。
常用场景
经典使用场景
在机器人学习与模仿学习的交叉领域,eval_xvla_pipette_ood数据集扮演了基准测试的关键角色。该数据集记录了双臂协作机器人(bi_yam_follower)执行精细操作任务的完整交互历程,涵盖23个回合、11466帧数据,包含三组不同的任务场景。其设计聚焦于分布外泛化能力的评估,即测试模型在面对训练时未曾见过的物体摆放、光照变化或机械臂构型时的鲁棒性。经典使用方式是将此数据集作为验证集,用于衡量模仿学习算法是否能够突破特定环境依赖,习得可迁移的操控策略。
实际应用
在实际产业场景中,eval_xvla_pipette_ood数据集所模拟的精细操作任务与生物医药、精密装配等领域的自动化需求高度契合。例如,在实验室自动化移液操作中,机器人需要从不同规格的试剂瓶中精准吸取微量液体,面对瓶身角度变化、液面高度差异等OOD挑战。该数据集提供的高自由度双臂控制数据(14维动作空间)和多方位的视觉流(左右与顶部摄像头),能够直接用于训练移液工作站中的智能拾取与放置系统,提升自动化产线对异形耗材与不规则工况的适应能力,从而降低人工干预频率,实现真正的无人化精准操作。
衍生相关工作
围绕eval_xvla_pipette_ood数据集,衍生出一系列推动机器人泛化学习边界的前沿工作。研究者利用其OOD特性,发展出基于隐式行为克隆的鲁棒策略蒸馏方法,在标准模仿学习基线(如扩散策略、行为Transformer)上进行改进,提出面向视觉域移的对抗性数据增强框架。此外,该数据集还催生了结合对称性与旋转等变的策略架构设计,使得模型能够利用机器人运动学先验推断未观测到的构型空间。更有工作将其与多模态大模型结合,探索语言条件化策略在OOD场景下的零样本迁移能力,开创了机器人策略学习的全新范式。
以上内容由遇见数据集搜集并总结生成



