eval_xvla_candy_sorting_ood

Name: eval_xvla_candy_sorting_ood
Creator: Allen Institute for AI
Published: 2026-05-20 14:44:50
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_xvla_candy_sorting_ood

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot平台创建的机器人学数据集，采用Apache 2.0许可证。它包含一个双臂机器人（类型为bi_yam_follower）执行任务时记录的多模态数据，规模为23个episodes，总计16014帧，覆盖4个不同的任务，所有数据均用于训练。数据以分块形式存储，每块包含1000个数据点，数据文件总大小约为100 MB，关联的视频文件总大小约为200 MB，视频帧率为30 fps。数据集提供了丰富的特征，包括机器人的动作指令（14维浮点数）、机器人状态观测（14维浮点数）、来自三个固定视角（右、左、顶部）的图像观测（均为360x640 RGB视频，使用AV1编解码器），以及时间戳、帧索引、episode索引、全局索引和任务索引等元数据。该数据集适用于机器人模仿学习、行为克隆、策略学习等研究任务。

This dataset is a robotics dataset created using the LeRobot platform under the Apache 2.0 license. It contains multimodal data recorded by a dual-arm robot (type bi_yam_follower) while performing tasks, with a scale of 23 episodes totaling 16014 frames, covering 4 different tasks, all data is used for training. The data is stored in chunks, each containing 1000 data points, with the total data file size approximately 100 MB and associated video files totaling about 200 MB, with a video frame rate of 30 fps. The dataset provides rich features, including robot action commands (14-dimensional floating-point numbers), robot state observations (14-dimensional floating-point numbers), image observations from three fixed perspectives (right, left, top, all in 360x640 RGB video using the AV1 codec), and metadata such as timestamps, frame indices, episode indices, global indices, and task indices. This dataset is suitable for research tasks such as robot imitation learning, behavior cloning, and policy learning.

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

搜集汇总

数据集介绍

构建方式

在机器人学习领域，分布外泛化能力是衡量模型鲁棒性的关键指标。eval_xvla_candy_sorting_ood数据集专为评估视觉-语言-动作模型在未见场景下的排序任务表现而设计，基于LeRobot框架构建。其数据通过Bi-YAM跟随机器人采集，涵盖4种糖果排序任务，共计23个完整轨迹片段与16014帧时序数据。每条记录包含14维关节角度与夹爪状态作为动作与观测状态，同步录制右、左、顶三个视角的640×360分辨率视频流（AV1编码，30帧率），并附有时间戳、帧索引等元信息。数据按1000帧切块存储为Parquet格式，视频分段为MP4文件，且全部23个片段均归入训练集，以支持对模型在无专用验证数据下的零样本泛化测试。

使用方法

使用该数据集需借助LeRobot库加载Parquet格式的数据块与关联视频。用户可通过指定config为'default'，利用`load_dataset('eval_xvla_candy_sorting_ood', split='train')`获取所有轨迹。在模型训练或评估时，建议提取'observation.state'中的关节位置与'action'标签构成模仿学习对，同时将三个视角的图像作为视觉输入。由于数据集没有预定义验证集，研究者应自定义划分或直接进行全量遍历以测试零样本性能。数据以30帧率流式提供，支持按episode_index分组进行时序建模，并可利用chunks_size参数调节内存加载粒度，适配不同规模的策略网络训练需求。

背景与挑战

背景概述

在机器人学习领域，模仿学习与迁移学习的研究日益受到关注，其中面向特定任务的策略泛化能力成为关键瓶颈。eval_xvla_candy_sorting_ood数据集由LeRobot社区构建，基于Bi-Yam跟随型机器人平台，于近年发布，旨在评估视觉-语言-动作（VLA）模型在糖果分拣任务中的分布外泛化性能。该数据集包含23个示范片段、16014帧图像和4种任务变体，通过多视角视觉输入（左、右、顶摄像头）与14维关节动作空间，为研究机器人操作中的语义理解与动作执行提供了标准化基准。其核心研究问题聚焦于：当测试环境中的物体外观、布局或光照条件与训练数据存在显著差异时，模型能否保持稳定决策能力。这一方向对推动家庭服务、工业分拣等动态场景中的机器人部署具有重要价值。

当前挑战

该数据集面对的核心挑战在于机器人操作领域的分布外泛化难题。具体而言，1）领域问题挑战：传统模仿学习模型在训练时假设数据独立同分布，但实际应用中，糖果的颜色、形状、摆放角度等视觉特征会发生不可预知的变化，导致模型性能急剧下降；此外，任务指令的语义歧义性（如“分拣红色糖果”可能因环境光照而产生误解）进一步加剧了决策的不确定性。2）构建过程挑战：数据集仅包含23个示范片段，规模相对有限，难以覆盖多样化的分布外场景；动作空间包含14个连续自由度，且需通过多摄像头同步采集高分辨率视频（360×640@30fps），这要求在数据采集阶段精准对齐时序与空间信息，并解决机械臂运动轨迹的高变异性问题，从而对数据标注质量与硬件同步精度提出了严苛要求。

常用场景

经典使用场景

在机器人操作领域，分布外（OOD）泛化是智能体从模拟环境迁移至真实世界的核心挑战。eval_xvla_candy_sorting_ood数据集专为评估视觉-语言-动作（VLA）模型在未见过的糖果分拣场景中的鲁棒性而设计，收录了23条完整操作轨迹，包含左右双机械臂的14维关节控制信号以及左、右、顶部三视角的高清视频流。其经典使用场景聚焦于检验模型在面对未出现过的物体颜色、排列方式或光照条件时的决策稳定性，通过对比模型在训练分布内与分布外的表现差异，量化其泛化能力的边界。该数据集提供的标准化动作与状态标注，使研究者能够系统性地分析多模态感知与运动控制之间的耦合失效模式，为构建更鲁棒的端到端机器人学习基线提供了验证基准。

解决学术问题

该数据集精准填补了机器人学习领域关于OOD泛化定量评估的空白。现有操作数据集多假设训练与测试数据同分布，忽视了真实环境中语义偏移与物理参数变化带来的决策风险。eval_xvla_candy_sorting_ood通过控制任务拓扑不变但外观属性变异的方式，解决了‘如何分离感知混淆对动作策略的影响’这一学术难题。研究者可借助此数据集剖析VLA模型在语义理解失败、视觉注意偏移或运动规划失稳时的误差传播链，推动因果推断与域适应理论在机器人学中的融合。其标准化评估范式为量化模型的安全冗余提供了可靠依据，促使学术界从追求平均性能转向关注极端情况下的可靠性，对建立可证实的具身智能安全准则具有范式级意义。

实际应用

在工业柔性制造与仓储物流的真实部署中，eva_xvla_candy_sorting_ood所模拟的场景直接映射了流水线上异构品类的动态分拣需求——当产品包装或颜色发生切换时，机械臂需即时调整抓取姿态与力度。该数据集训练出的策略可迁移至电商包裹分拣、食品包装线以及药物分类等低容错场合，尤其适用于对物体表观具有高度变异性的操作环境。其包含的左右臂协同控制信息与多视角视觉输入，支持触觉-视觉融合算法的开发，使机器人能在光照波动或局部遮挡的仓储环境中维持抓取成功率。此外，基于此数据集的预训练模型可作为服务机器人领域的底层模块，赋能家用场景下对不同材质、形状杂物的适应性操作，降低人工重新校准传感器的非必要支出。

数据集最近研究