eval_xvla_test_tube_in-distribution

Name: eval_xvla_test_tube_in-distribution
Creator: Allen Institute for AI
Published: 2026-05-20 14:44:28
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_xvla_test_tube_in-distribution

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学领域的数据集，使用LeRobot工具创建，记录了双臂机器人（型号为bi_yam_follower）的操作数据，旨在为机器人控制与模仿学习任务提供训练数据。数据包含50个完整的任务片段，总计29544个时间步，每个数据点包括机器人的动作指令、状态观测和多视角视觉观测。动作空间和状态空间均为14维浮点数向量，分别对应左机械臂的6个关节位置和1个夹爪位置，以及右机械臂的对应7个位置。视觉观测包含三个固定视角（右、左、顶）的RGB视频流，每帧图像分辨率为360x640，视频帧率为30fps。此外，数据还包含时间戳、帧索引、片段索引等元数据。数据集以Parquet文件格式存储数据，MP4格式存储视频，总体数据量约为100MB，视频文件量约为200MB，适用于机器人模仿学习、策略学习、行为克隆等研究任务。

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的质量与结构直接影响模型的泛化能力与行为复现精度。本数据集依托于LeRobot框架构建，通过其标准化的数据采集与处理流程，募集了来自双机械臂机器人（bi_yam_follower）的50个演示回合，总帧数达29544帧，帧率为30FPS。数据被划分为1000帧大小的等长片段，并以Parquet格式存储于data目录下，对应的视频流则采用AV1编码保存于videos目录，形成结构清晰、易于分块处理的数据组织方式。

特点

本数据集的显著特征在于其多模态与精细化的观测设计。动作与状态空间均为14维连续向量，涵盖左右各6个关节位置与1个夹爪位置，为模仿学习提供高精度控制信号。与此同时，从左侧、右侧及顶部视角采集的360×640像素RGB图像，不仅丰富了环境感知的维度，还通过视频编码保留了时序连贯性。数据集仅包含单一任务但具备完整的训练划分，确保了在特定技能学习场景下的高效利用。

使用方法

借助LeRobot库，用户可以便捷地加载与交互本数据集。通过lerobot.Dataset接口指定‘default’配置，即可将包含14维动作和状态、三视角视频以及时间戳、帧索引等元数据的结构化样本读入内存。建议将数据集用于训练机器人行为克隆或模仿学习模型，在加载时重点关注action字段作为预测目标，observation.state与observation.images作为输入，以充分发挥其多模态与高精度的优势。

背景与挑战

背景概述

在机器人学习领域，模仿学习与行为克隆方法依赖大量高质量的专家演示数据以训练稳健的策略模型。eval_xvla_test_tube_in-distribution数据集由Hugging Face团队基于LeRobot框架创建，旨在为双臂机器人操作任务提供标准化的评估基准。该数据集聚焦于一个特定任务场景，包含50个演示片段，共计29,544帧观测数据，采样频率为30帧每秒。数据采集自名为‘bi_yam_follower’的双臂机器人平台，记录了包括左右各6个关节位置及夹爪状态的14维动作与状态空间，同时提供三个视角（左、右、顶部）的视觉观测图。该数据集的出现填补了双臂机器人操作任务中统一评估数据的空白，为验证模仿学习算法在分布内场景下的泛化能力提供了重要参考，尤其推动了LeRobot生态下机器人学习研究的标准流程建设。

当前挑战

该数据集所解决的领域挑战主要源自双臂机器人操作的高度复杂性。首先，机器人需协调14个运动维度的动作，协同控制左右臂与夹爪，完成精准操作任务，这要求模型从高维视觉与状态输入中学习到鲁棒的策略映射。其次，构建过程中的挑战在于数据规模与多样性有限——仅含50个片段与单任务设定，难以覆盖操作失败的边缘案例和机器人系统的真实噪声。此外，基于模仿学习的范式面临分布偏移问题，模型在评估时可能因演示数据与测试环境的微小差异而表现不佳。如何利用该数据集发展的模型解决泛化到新场景、新物体配置的能力，以及如何在少量演示下高效提取可迁移的动作表征，仍是当前亟需攻克的难题。

常用场景

经典使用场景

在机器人学习领域，eval_xvla_test_tube_in-distribution 数据集专为评估具备视觉-语言-动作（VLA）能力的双臂机器人操控模型而设计。其核心应用场景聚焦于测试机器人在已知分布内的任务执行泛化能力，通过采集50个高质量操控演示片段，涵盖左右各6个关节与夹爪的14维动作空间，以及来自三视角（左、右、顶）的同步视频流，为模仿学习与行为克隆算法提供标准化的基准测试平台。研究者常利用该数据集衡量模型在训练分布内重现精确动作序列的鲁棒性，尤其关注连续控制任务中机器人对目标物体姿态变化的适应程度。

实际应用

在实际场景中，该数据集为双臂协作机器人的部署提供了关键的验证依据，广泛适用于物流分拣、电子元件装配及医疗手术辅助等需要镜像协调控制的领域。利用左、右、顶三路视觉观测与联合位置指令的配对数据，工程团队可训练模型在生产线环境中精准执行插入、抓取或旋转等复合动作，并通过分布内测试评估系统在设备磨损或光照变化下的稳定性。此外，Apache-2.0许可证的开放特性使得中小企业能直接基于该数据集构建定制化的机器人操作技能库，显著降低从仿真迁移到真实产线的试错成本。

衍生相关工作

依托该数据集，研究者已衍生出多项具有影响力的工作，包括基于扩散策略的双臂协同动作预测模型、利用隐式视觉表征的跨频率技能迁移框架，以及面向多任务联合学习的时序对比编码方法。这些经典工作不仅验证了evaluation数据集在模型选择与超参数调优中的有效性，还催生了针对双臂系统的通用评估协议，诸如'分布内成功率曲线'与'动作平滑度熵'等新型评估指标。更进一步，作为LeRobot生态系统中的标准化测试案例，该数据集为后续的领域泛化研究提供了对比基准，驱动了关于观测噪声鲁棒性训练与示范质量筛选等前沿课题的探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集