eval_xvla_pipette_ood

Name: eval_xvla_pipette_ood
Creator: Allen Institute for AI
Published: 2026-05-20 14:45:01
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_xvla_pipette_ood

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人任务数据集，使用LeRobot平台创建，专为双手机器人（bi_yam_follower）设计。它包含23个完整任务片段（episodes），总计11466帧数据，涵盖3种不同任务。数据以Parquet格式存储，总数据文件大小约100MB，视频文件大小约200MB，视频帧率为30fps。核心特征包括：动作（action）为14维浮点数组，分别对应左、右机械臂的6个关节位置和夹爪位置；状态观测（observation.state）同样为14维浮点数组，反映机器人关节状态；多视角图像观测（observation.images）包括右侧（right）、左侧（left）和顶部（top）三个视角的RGB视频流，分辨率均为360x640，3通道，采用AV1编码；此外还包含时间戳（timestamp）、帧索引（frame_index）、片段索引（episode_index）、全局索引（index）和任务索引（task_index）。数据集仅提供训练集（splits.train: 0:23），适用于机器人模仿学习、强化学习或行为克隆等任务，尤其适合研究基于多视角视觉输入的双手机器人控制。数据集采用Apache 2.0开源许可证。

This dataset is a robotic task dataset created using the LeRobot platform. It is designed for dual-arm robots (bi_yam_follower) and includes 23 complete task episodes, totaling 11466 frames of data, covering three different tasks. The data is stored in Parquet format, with a total data file size of approximately 100MB and video file size of about 200MB, with a video frame rate of 30fps. Core features include: action as a 14-dimensional floating-point array corresponding to the 6 joint positions and gripper positions of the left and right robotic arms; state observation (observation.state) as a 14-dimensional floating-point array reflecting the robots joint states; multi-view image observations (observation.images) include RGB video streams from the right, left, and top perspectives, each with a resolution of 360x640, 3 channels, encoded with AV1; additionally, it contains timestamps, frame indices, episode indices, global indices, and task indices. The dataset only provides a training set (splits.train: 0:23) and is suitable for tasks such as robot imitation learning, reinforcement learning, or behavior cloning, particularly for research on dual-arm robot control based on multi-view visual input. The dataset is licensed under Apache 2.0.

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专注于评估机器人操作策略在分布外场景中的泛化能力。其数据源自双机械臂系统（bi_yam_follower）在三种不同任务下的遥操作采集，共包含23个演示回合（episodes）与11466帧时序数据。每个回合记录了14维关节动作指令（包括左右臂各6个自由度及夹爪位置）及对应的观测状态，并通过右、左、顶部三个视角的640×360像素视频流捕捉环境视觉信息。数据以分块形式存储，每1000帧为一个chunk，训练集与完整数据集重合，未设验证或测试分割，旨在强化模型对未知任务的适应能力。

特点

数据集的核心特性在于其明确的分布外（out-of-distribution, OOD）评估定位。相较于常规机器人数据集，它刻意压缩了任务数量（仅3类）与演示规模（23个回合），以此模拟现实中训练数据稀缺且与测试场景存在分布偏移的情形。双机械臂的高自由度动作空间（14维连续控制）结合多视角视频输入，为策略网络提供了丰富的状态表征，但也因环境动态与视觉遮挡等因素，对模型的鲁棒性构成严峻挑战。此外，视频采用AV1编码以平衡画质与存储效率，360p分辨率虽低于常见标准，却更贴合边缘部署场景的计算约束。

使用方法

研究者可通过LeRobot库直接加载数据集，利用其预定义的默认配置自动解析parquet格式的时序动作与状态数据，以及MP4格式的多视角视频。典型使用流程包括：首先，基于train分割（0至22号回合）训练模仿学习或强化学习策略；其次，在无标注测试集上评估模型在OOD场景下的表现——需注意数据本身未提供明确的测试分割，用户应自行划分或借助外部工具模拟分布外条件。动作与观测空间均为14维连续值，可配合标准归一化与平滑后处理；视频帧需经resize与归一化后输入视觉编码器。推荐结合LeRobot的评估工具链，计算任务成功率与动作误差等指标。

背景与挑战

背景概述

eval_xvla_pipette_ood数据集专为机器人操作领域中的分布外泛化能力评估而构建，诞生于LeRobot开源框架生态之中。该数据集由Hugging Face平台托管的机器人学习社区贡献，核心围绕双臂协作机械臂（robot_type: bi_yam_follower）在复杂环境下的精细操作任务展开。其研究问题聚焦于评估视觉-语言-动作（XVLA）模型在面对未见过的物体、布局或动力学条件下的鲁棒性，通过录制的23个示范片段（共11466帧）和三种任务类型，为机器人学习社区提供了标准化基准。该数据集采用Apache-2.0许可证开放，其结构化设计（包含14维动作和状态空间、多视角视觉输入及元信息标注）促进了从模仿学习到强化学习的跨方法对比，对推动具身智能在真实物理世界中的泛化性研究具有里程碑意义。

当前挑战

该数据集所解决的领域挑战集中于机器人操作中的分布外泛化问题：传统模型在训练集内表现优异，但面对环境改变（如光照、背景、物体位姿变化）时性能骤降，而本数据集通过刻意采集边缘工况数据，迫使算法学习超越单一场景的鲁棒策略。构建过程中面临的挑战包括：a) 缺乏大规模注释的异质环境数据，需在有限资源下通过23个示范片段（约100MB数据）平衡采集效率与多样性；b) 高精度的双机械臂联合运动学建模（14自由度动作空间）要求同步记录多视角视觉流（30fps下360×640分辨率的视频）与关节状态，增加了硬件同步与数据清洗的难度；c) 任务设计的模糊性——如何定义“分布外”边界以避免任务过简或过难，是确保评估有效性的核心难点。

常用场景

经典使用场景

在机器人学习与模仿学习的交叉领域，eval_xvla_pipette_ood数据集扮演了基准测试的关键角色。该数据集记录了双臂协作机器人（bi_yam_follower）执行精细操作任务的完整交互历程，涵盖23个回合、11466帧数据，包含三组不同的任务场景。其设计聚焦于分布外泛化能力的评估，即测试模型在面对训练时未曾见过的物体摆放、光照变化或机械臂构型时的鲁棒性。经典使用方式是将此数据集作为验证集，用于衡量模仿学习算法是否能够突破特定环境依赖，习得可迁移的操控策略。

实际应用

在实际产业场景中，eval_xvla_pipette_ood数据集所模拟的精细操作任务与生物医药、精密装配等领域的自动化需求高度契合。例如，在实验室自动化移液操作中，机器人需要从不同规格的试剂瓶中精准吸取微量液体，面对瓶身角度变化、液面高度差异等OOD挑战。该数据集提供的高自由度双臂控制数据（14维动作空间）和多方位的视觉流（左右与顶部摄像头），能够直接用于训练移液工作站中的智能拾取与放置系统，提升自动化产线对异形耗材与不规则工况的适应能力，从而降低人工干预频率，实现真正的无人化精准操作。

衍生相关工作

围绕eval_xvla_pipette_ood数据集，衍生出一系列推动机器人泛化学习边界的前沿工作。研究者利用其OOD特性，发展出基于隐式行为克隆的鲁棒策略蒸馏方法，在标准模仿学习基线（如扩散策略、行为Transformer）上进行改进，提出面向视觉域移的对抗性数据增强框架。此外，该数据集还催生了结合对称性与旋转等变的策略架构设计，使得模型能够利用机器人运动学先验推断未观测到的构型空间。更有工作将其与多模态大模型结合，探索语言条件化策略在OOD场景下的零样本迁移能力，开创了机器人策略学习的全新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集