eval_cosmos_cup_stacking_ood

Name: eval_cosmos_cup_stacking_ood
Creator: Allen Institute for AI
Published: 2026-05-20 14:45:03
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_cosmos_cup_stacking_ood

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot工具创建的机器人操作数据集，适用于机器人学习任务。数据集基于双机械臂系统（bi_yam_follower），包含2个任务、15个episodes和16786帧数据，帧率为30fps。数据以parquet格式存储，总大小约100MB，并包含对应的视频文件（约200MB）。数据集仅提供训练分割（train）。数据特征包括：动作（action）为14维浮点数组，表示左右机械臂各6个关节位置及夹爪位置；状态观测（observation.state）与动作维度相同；视觉观测包括右、左、顶三个视角的视频（observation.images.right/left/top），分辨率为360x640，3通道RGB，采用AV1编码。此外，还包含时间戳、帧索引、episode索引、全局索引和任务索引等辅助字段。数据集遵循Apache 2.0许可证。

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

原始信息汇总

数据集概述

名称: allenai/eval_cosmos_cup_stacking_ood
许可证: Apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot

数据集来源与构建

该数据集使用 LeRobot 创建。
数据集来自 Allen AI，具体论文和主页信息暂未提供。

数据集结构

数据格式: Parquet 文件，地址为 data/*/*.parquet
配置: 仅有一个 default 配置

元数据 (`meta/info.json`) 总结

属性	数值
代码库版本	v3.0
机器人类型	bi_yam_follower
总片段数	15
总帧数	16,786
总任务数	2
块大小	1000
数据文件大小	100 MB
视频文件大小	200 MB
帧率 (fps)	30
训练集划分	所有片段 (0:15) 用于训练

数据特征

动作 (action): 14 维浮点数组，包含左右机械臂各 6 个关节位置和 1 个夹爪位置。
观测状态 (observation.state): 与动作相同的 14 维浮点数组。
观测图像 (observation.images): 三个摄像头视角（右、左、顶），每个视角为 360x640 像素的 RGB 视频，编码为 AV1，帧率 30 fps。
时间戳 (timestamp): 浮点型，形状 [1]
帧索引 (frame_index): 整型，形状 [1]
片段索引 (episode_index): 整型，形状 [1]
数据索引 (index): 整型，形状 [1]
任务索引 (task_index): 整型，形状 [1]

数据存储路径

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用

目前 BibTeX 引用信息待补充。

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的构建质量直接关系到模型在真实世界中的泛化能力。eval_cosmos_cup_stacking_ood 数据集依托 LeRobot 框架生成，专注于双机械臂的杯具堆叠任务。该数据集由一台 bi_yam_follower 型机器人执行操作，采集了15个完整任务回合，总计16786帧时序数据，涵盖两项不同的堆叠子任务。数据以1000帧为单位分块存储，采用 Parquet 格式保存结构化动作与状态信息，同时以 MP4 视频记录三视角（左侧、右侧及顶部）的视觉观测，分辨率为360×640像素，编码格式为 AV1。训练集仅包含单一 split，全部15个回合均用于模型学习，未设置验证与测试集划分，体现了针对分布外泛化评估的精心设计。

特点

该数据集的核心特色在于其面向分布外（OOD）场景的泛化评估能力。不仅记录了14维连续动作空间（涵盖左右各6个关节角度与夹爪位置），还同步保存了31维状态观测，包括机械臂自身状态与三通道图像信息。视觉观测以30帧/秒的帧率捕获，提供了丰富的时空感知信息。数据集精心设计了15个回合的采集规模，专为评估模型在未见任务配置与机械臂构型下的表现而构建。所有数据均采用 Apache-2.0 许可协议开源，便于研究者进行公平的算法比较与模型鲁棒性测试。

使用方法

研究者可通过 LeRobot 库便捷加载本数据集。首先使用 `from lerobot.common.datasets.lerobot_dataset import LeRobotDataset` 导入数据集类，然后通过 `LeRobotDataset('eval_cosmos_cup_stacking_ood')` 指令完成数据加载。加载后可通过标准 API 访问动作序列（`action`）、状态观测（`observation.state`）及三路摄像头图像（`observation.images.left`、`observation.images.right`、`observation.images.top`）。数据集已预定义任务索引（`task_index`），便于多任务学习中的样本分配与切换。由于数据以连续帧序列存储，特别适合时序建模模型（如扩散策略、变分推断）的训练与评估。

背景与挑战

背景概述

在机器人学习领域，模仿学习与策略泛化能力是推动具身智能发展的关键。eval_cosmos_cup_stacking_ood数据集创建于HuggingFace的LeRobot框架下，由社区贡献者针对双机械臂协作场景构建，旨在评估机器人模型在未见过的分布外（Out-of-Distribution, OOD）环境中的杯塔堆叠能力。数据集包含15个示范回合，累计约1.7万帧观测数据，整合了14维关节角度动作、三视角视觉流（左、右、顶部）及任务索引等特征。其研究重点在于促使机器人学习从示范中泛化至新颖场景，填补了现有机器人基准在OOD评测上的空白，对验证模仿学习算法的鲁棒性与迁移性具有重要推动价值。

当前挑战

该数据集所解决的领域核心挑战在于机器人在分布外场景中的行为泛化能力。传统模仿学习数据集多假设训练与测试环境同分布，导致模型在杯子位置、光照或背景等微小变化下性能骤降，而本数据集聚焦杯塔堆叠任务，要求算法应对布局变异。构建过程中亦面临多重难点：双机械臂（bi_yam_follower）的高自由度运动需精确同步动作序列；跨视角视频（640×360分辨率）与关节状态的高频采集需协调同步；仅15个回放的稀疏示范难以覆盖真实世界中的无限变异，迫使模型在有限数据中学习强鲁棒性策略。

常用场景

经典使用场景

在机器人学习与操控领域，eval_cosmos_cup_stacking_ood数据集专为评估模型在分布外场景下的泛化能力而设计，尤其聚焦于叠杯这一精细操作任务。该数据集利用LeRobot框架采集，包含来自双机械臂系统的16,786帧数据，涵盖14维关节角度与力矩信息，同时提供左、右、顶部三个视角的视觉观测。其经典用途是作为基准测试工具，以检验模仿学习或强化学习算法在面对未见过物体姿态、光照变化或机械臂初始状态偏移时的鲁棒性，从而推动机器人从实验室封闭环境向开放动态场景迁移。

实际应用

实际应用中，该数据集可用于开发面向工业装配、家庭服务等场景的机器人技能。例如，在仓储物流中，机器人需适应摆放位置随机的货品叠放；在居家环境中，机器人应能稳健执行杯子堆叠等任务，而不受桌面纹理或光照变化的干扰。通过在该数据集上训练与测试，工程师可优化模型的动作生成策略，减少对精确校准的依赖，提升机器人在非结构化环境中的成功率。此外，数据集的双臂协同特性也为医疗手术辅助等需要高精度同步操作的领域提供了研发参考。

衍生相关工作

该数据集衍生了多个具有影响力的研究工作。一方面，研究者基于其分布外特性，开发了针对性的域随机化方法与对抗性训练框架，例如通过引入视角变换或关节噪声来增强模型鲁棒性。另一方面，该数据集成为验证模型架构创新（如注意力机制、状态空间模型在机器人领域的应用）的基石，相关成果发表于机器人学顶会（如ICRA、CoRL）。此外，该数据集也催生了跨任务迁移学习的探索，促使学者构建从叠杯到类似精细操作任务的底层技能共享模式，从而加速通用操作智能体的研发进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集