eval_xvla_test_tube_ood
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/allenai/eval_xvla_test_tube_ood
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个机器人任务演示数据集,使用LeRobot工具创建,来自名为bi_yam_follower的双机器人系统。数据集包含24个完整的演示片段,共计15020个数据帧,覆盖3个不同任务,仅划分为训练集。数据以分块形式存储(每块1000帧),总大小约100MB,关联视频总大小约200MB,帧率为30 FPS。核心内容是多模态机器人交互数据,包括:1) `action`:14维浮点向量,表示左、右机械臂的6个关节位置和1个夹爪位置的动作指令;2) `observation.state`:14维浮点向量,表示当前时刻的关节与夹爪位置状态观测;3) `observation.images`:来自右、左、顶三个固定视角的视觉观测,每个视角视频分辨率为640x360,3通道彩色,采用AV1编码;4) 元数据字段:如`timestamp`、`frame_index`、`episode_index`、`index`和`task_index`。适用于机器人模仿学习、视觉运动策略学习和多模态感知与控制等研究任务。
This dataset is a robot task demonstration dataset created using the LeRobot tool, derived from a dual-robot system named bi_yam_follower. It contains 24 complete demonstration episodes, totaling 15,020 data frames, covering 3 different tasks, and is divided only into a training split. The data is stored in chunks (each with 1,000 frames), with a total size of approximately 100MB, and associated video files totaling about 200MB at a frame rate of 30 FPS. The core content consists of multimodal robot interaction data, including: 1) `action`: a 14-dimensional floating-point vector representing action commands for the left and right robotic arms 6 joint positions and 1 gripper position; 2) `observation.state`: a 14-dimensional floating-point vector representing state observations of joint and gripper positions at the current moment; 3) `observation.images`: visual observations from three fixed perspectives (right, left, top), with each views video resolution at 640x360, 3-channel color, encoded in AV1; 4) metadata fields: such as `timestamp`, `frame_index`, `episode_index`, `index`, and `task_index`. It is suitable for research tasks like robot imitation learning, visual-motor policy learning, and multimodal perception and control.
提供机构:
Allen Institute for AI
创建时间:
2026-05-20
搜集汇总
数据集介绍

构建方式
该数据集基于LeRobot框架构建,专为机器人操控任务设计,聚焦于分布外(OOD)场景下的泛化能力评估。数据集包含24个演示片段,总计15020帧,覆盖3种不同任务。数据采集通过双机械臂系统进行,记录左右臂各6个关节角度及夹爪位置作为动作与状态信息,同时利用三个视角的摄像头(右、左、顶部)同步捕获360×640分辨率的视频流,并以30帧/秒的AV1编码格式存储。所有数据被分割为1000帧大小的块,以Parquet格式保存动作与状态数据,视频则独立存储,确保了高效的数据加载与处理。
特点
该数据集的核心特点在于其针对测试环境下的分布外泛化能力进行设计,通过有限的24个演示片段(全部用于训练)挑战模型在未见任务场景中的适应性。数据特征维度丰富,包含14维的连续动作与状态空间,以及多视角视觉输入,提供了机械臂精细操控的完整表征。此外,数据集中包含时间戳、帧索引、片段索引等结构化元信息,便于序列建模与时间关联分析。整体数据量适中(约300MB),既保证了评估的充分性,又降低了存储与计算成本。
使用方法
使用该数据集时,首先通过LeRobot库的API加载数据,根据`meta/info.json`中的特征定义访问动作(`action`)、状态(`observation.state`)及多视角图像(`observation.images.*`)。数据集未预划分验证或测试集,全部24个片段作为训练数据,用户可根据任务需求自行划分或直接用于分布外泛化测试。图像数据以视频帧形式返回,适合与时间序列模型或视觉-运动策略结合。推荐在评估时,利用`task_index`字段区分不同任务,并重点关注模型在分布外任务上的表现。
背景与挑战
背景概述
eval_xvla_test_tube_ood数据集由Hugging Face LeRobot社区创建,旨在评估机器人操作策略在分布外(Out-of-Distribution, OOD)场景下的泛化能力。该数据集基于Bi-Yam双臂机器人平台,采集了24个演示片段、共计15020帧的高频动作与多视角视觉数据(左、右、顶三视角),覆盖3种未公开任务,专为测试模型面对陌生环境、物体或配置时的鲁棒性而设计。其发布填补了机器人学习领域在标准化OOD评测基准上的空白,推动了视觉-语言-动作(VLA)模型在真实世界部署中的可信性研究。
当前挑战
该数据集聚焦于机器人操作中的两大挑战:其一,为解决模型在训练分布外场景下性能骤降的领域问题,通过刻意构造的任务与环境变化,检验策略对未见过物体、光照或布局的适应能力;其二,构建过程面临数据采集与标注的困难,包括双臂14自由度关节角度的精确同步记录、多摄像头视场匹配、时序一致性维护,以及仅依靠24个短片段支撑OOD泛化评估所需的特征覆盖度,对算法提出了严苛的样本效率要求。
常用场景
经典使用场景
在机器人学习领域,eval_xvla_test_tube_ood数据集专为评估视觉-语言-动作(VLA)模型在分布外(Out-of-Distribution, OOD)场景下的泛化能力而设计。该数据集包含24个演示片段、共计15020帧,涵盖3种不同的操作任务,并提供了高自由度双臂机器人(bi_yam_follower)的14维关节动作与状态信息,以及来自右、左、顶部三个视角的RGB视频流。其核心应用在于验证模型在面对未曾见过的环境配置、物体布局或任务变体时的鲁棒性,通过对动作序列与视觉观测的时序对齐,研究者可系统性地测试模型从示范中习得的策略能否突破训练数据的分布边界。
实际应用
在实际工业与家用机器人部署中,该数据集扮演着压力测试与鲁棒性验证的关键角色。例如,在物流拣选任务中,机器人可能面临光照突变、物体纹理变异或货架位姿偏移等干扰;而在家庭服务场景中,桌面杂乱程度、工具摆放角度与日常物品替换均构成典型的分布外因素。利用此数据集训练的策略可有效减少因环境微小变更导致的执行失败,降低人工干预频率。此外,它还为仿真到现实(Sim-to-Real)迁移提供了一种低成本的评价手段,帮助工程师在虚拟环境中预先筛选出抗干扰能力强的策略,进而安全地部署至实体机器人操作系统中。
衍生相关工作
围绕eval_xvla_test_tube_ood数据集,学术界已涌现出一系列里程碑式的研究工作。一类工作聚焦于因果干预与数据增强,例如通过结构化破坏视觉线索(如遮挡关键部件)来探究模型决策的因果链;另一类则开发了基于不确定性估计的行动筛选机制,如利用贝叶斯神经网络量化输出动作的置信度,从而在遇到OOD样本时自动切换到安全回退策略。此外,长时序动作规划与分层强化学习的研究者借助该数据集验证了抽象任务分解能否提升对复杂环境漂移的适应能力。这些衍生工作共同将OOD问题从边缘议题推向了机器人学习研究的核心舞台。
以上内容由遇见数据集搜集并总结生成



