eval_molmoact_test_tube_ood
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/allenai/eval_molmoact_test_tube_ood
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用LeRobot框架创建,是一个机器人示范数据集,适用于机器人学习与模仿学习任务。数据集包含一个双臂机器人(bi_yam_follower)执行4种不同任务时的22条完整轨迹,共计23,511帧数据。数据以30fps的频率采集,包含多模态观测与动作记录:观测数据包括机器人的状态观测(14维浮点向量,记录左右机械臂各6个关节及末端夹爪的位置)和三个视角的RGB视频观测(分辨率640x360,编码格式AV1);动作数据为14维浮点向量,对应机器人各关节与夹爪的目标位置。此外,数据集还包含时间戳、帧索引、轨迹索引、任务索引等元数据。数据以分块Parquet文件存储,总数据量约100MB,视频文件约200MB。数据集仅提供训练集划分,适用于机器人策略学习、行为克隆等研究。
This dataset is created using the LeRobot framework and is a robot demonstration dataset suitable for robot learning and imitation learning tasks. It contains 22 complete episodes of a dual-arm robot (bi_yam_follower) performing 4 different tasks, totaling 23,511 frames of data. Data is collected at 30fps and includes multimodal observations and action records: observations consist of robot state observations (a 14-dimensional floating-point vector recording the positions of 6 joints per arm and the end-effector grippers) and RGB video observations from three viewpoints (resolution 640x360, AV1 encoding); actions are 14-dimensional floating-point vectors corresponding to target positions for each joint and gripper. Additionally, the dataset includes metadata such as timestamps, frame indices, episode indices, and task indices. Data is stored in chunked Parquet files, with a total size of approximately 100MB and video files of about 200MB. The dataset only provides a training split and is suitable for research in robot policy learning, behavior cloning, and related areas.
提供机构:
Allen Institute for AI
创建时间:
2026-05-20
原始信息汇总
数据集概述
- 数据集名称:eval_molmoact_test_tube_ood
- 提供者:allenai
- 许可证:Apache-2.0
- 任务类别:机器人学 (robotics)
- 标签:LeRobot
数据集来源
- 使用 LeRobot 创建
数据集规模与结构
| 属性 | 数值 |
|---|---|
| 总轨迹数 (total_episodes) | 22 |
| 总帧数 (total_frames) | 23,511 |
| 总任务数 (total_tasks) | 4 |
| 块大小 (chunks_size) | 1,000 |
| 数据文件大小 | 100 MB |
| 视频文件大小 | 200 MB |
| 帧率 (fps) | 30 |
| 机器人类型 | bi_yam_follower |
数据划分
- 训练集:轨迹 0 至 21(共 22 条轨迹)
数据特征 (Features)
动作 (action)
- 数据类型:float32
- 维度:14
- 名称:左右手臂各 6 个关节位置 + 左右夹爪位置(共 14 维)
观测状态 (observation.state)
- 结构与动作特征完全相同,维度为 14
观测图像 (observation.images)
- right:右侧摄像头
- left:左侧摄像头
- top:顶部摄像头
每个摄像头视频参数:
| 参数 | 值 |
|---|---|
| 分辨率 | 360 x 640 |
| 通道数 | 3 (RGB) |
| 视频编码 | av1 |
| 像素格式 | yuv420p |
| 帧率 | 30 fps |
| 是否为深度图 | 否 |
其他标量特征
| 特征名 | 数据类型 | 维度 | 说明 |
|---|---|---|---|
| timestamp | float32 | 1 | 时间戳 |
| frame_index | int64 | 1 | 帧索引 |
| episode_index | int64 | 1 | 轨迹索引 |
| index | int64 | 1 | 全局索引 |
| task_index | int64 | 1 | 任务索引 |
数据存储格式
- 数据路径:
data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet - 视频路径:
videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
引用信息
- 论文:待补充
- BibTeX:待补充
搜集汇总
数据集介绍

构建方式
eval_molmoact_test_tube_ood 数据集基于 LeRobot 框架构建,专为机器人操作任务设计。其数据源自双臂机器人 bi_yam_follower 在执行多种任务时的遥操作采集,涵盖了22个完整演示片段,总计23511帧图像与状态信息。数据以分块形式存储,每块1000帧,采用 Parquet 格式保存数值型特征,并搭配 AV1 编码的 MP4 视频文件记录多视角视觉观测。训练集覆盖全部22个片段,完整保留原始采集顺序与时间戳。
特点
该数据集的核心特色在于其多模态异构数据融合:同时包含14维关节角度与夹爪位置的动作指令与观测状态,以及右、左、顶三个方向的360×640分辨率彩色视频流,提供高达30帧每秒的时序对齐信息。此外,数据集内置了4种不同任务指标,支持跨任务泛化能力评估。其 OOD(分布外)测试特性尤为突出,专用于检验模型在面对训练时未见的操作场景或物体时的鲁棒性与适应性。
使用方法
数据集通过 HuggingFace 与 LeRobot 生态无缝集成,用户可直接调用 lerobot 库加载。具体使用时,需先安装 lerobot 与 datasets 库,随后通过 from lerobot.common.datasets.lerobot_dataset import LeRobotDataset 接口指定数据集名称与缓存路径。数据以 episode 为单位组织,每条记录包含图像张量、状态向量、动作向量及元信息字段(如时间戳与帧索引),便于直接用于模仿学习或强化学习算法的训练与评估管线。
背景与挑战
背景概述
在机器人学习领域,构建具备泛化能力的操控策略是核心研究问题之一。为此,eval_molmoact_test_tube_ood数据集于近期由Hugging Face的LeRobot社区创建,旨在评估机器人在测试管操作任务上的开放世界泛化性能。该数据集依托Bi-Yam Follow机器人平台,采集了22个序列、超过23000帧的高质量观测数据,涵盖4类任务,并配备了双目及顶视视觉、关节状态与动作快照。其设计聚焦于分布外(OOD)场景,为衡量模型在未见过的动态环境中的适应性与鲁棒性提供了标准化评测基准,对推动机器人泛化学习研究具有重要价值。
当前挑战
该数据集的核心挑战在于解决机器人操控策略的分布外泛化问题。具体而言,模型需应对测试环境与训练环境在物体姿态、光照明暗、背景杂乱程度等方面的显著变化,避免过拟合于特定场景。此外,数据构建过程中面临多重困难:22个序列的采集需保证任务类型的覆盖度与动作的多样性,同时克服远程操控带来的延迟与噪声;高帧率(30 FPS)下的多模态数据同步(关节状态与三路视频流)对硬件同步与数据预处理提出严苛要求;从原始数据到标准化parquet格式的转换也需确保时序完整性与特征一致性,这些环节共同构成了数据质量保障的严峻挑战。
常用场景
经典使用场景
在机器人操作与模仿学习领域,eval_molmoact_test_tube_ood数据集专为评估模型在分布外场景下的泛化能力而设计。该数据集记录了双机械臂在执行多种操作任务时的多模态数据,包括14维关节位置动作指令、对应状态观测以及来自左、右、顶部三个视角的同步视频流。通过提供22个完整回合、总计逾两万三千帧的高频时序数据,研究团队能够测试控制策略在面对训练时未经历的环境变化时的鲁棒性,为验证算法从模拟环境迁移至真实世界的稳定性提供了关键基准。
实际应用
在实际工业与生活场景中,该数据集所驱动的技术可应用于柔性制造与家庭服务机器人领域。例如,面对装配线上工件摆放角度随机变化的情形,基于此数据训练的模型能通过多视角感知与多关节协同控制,自主调整抓取策略,避免因环境微小变动导致的任务失败。此外,在辅助康复或老年人护理场景里,机器人需应对用户个体差异与家具布局变化,该数据集所强调的分布外评估范式,为开发具备强环境鲁棒性的交互系统奠定了数据基础。
衍生相关工作
基于eval_molmoact_test_tube_ood数据集,学术界涌现出一系列聚焦于跨场景迁移与动态适应性的研究工作。其中典型成果包括将隐式神经表示引入策略网络以增强对未知视角的零样本泛化能力,以及利用逆动力学模型在大幅改变动作分布时仍保持任务完成率。此外,该数据集还催生了关于多模态融合框架在异常操作情形下解码稳定性的探讨,为构建如视觉-语言-动作基础模型等下一代通用操作智能体提供了关键的评估与训练数据支撑。
以上内容由遇见数据集搜集并总结生成



