five

eval_molmoact_pipette_ood

收藏
Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/allenai/eval_molmoact_pipette_ood
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于机器人学的开源数据集,基于LeRobot平台创建,专门针对双臂Yam follower机器人(bi_yam_follower)。它包含机器人执行任务时记录的多模态交互数据,规模为24个完整任务序列(episodes),共计18,629个时间步(帧),涵盖3种不同任务。数据以分块形式存储,总数据文件大小约为100MB,关联视频文件大小约为200MB,视频帧率为30 FPS,整个数据集被划分为训练集(包含全部24个episodes)。核心结构包括动作(一个14维浮点向量,控制左臂和右臂的关节及夹爪位置)、状态观测(一个14维浮点向量,记录实时位置)、图像观测(来自三个固定视角的同步视频流,分辨率为640x360像素,RGB格式)和元数据(如时间戳、帧索引等)。该数据集适用于机器人模仿学习、强化学习、策略学习以及多模态机器人控制等研究任务。

This open-source robotics dataset is developed based on the LeRobot platform, and is specifically tailored for the dual-arm Yam follower robot (bi_yam_follower). It contains multi-modal interaction data recorded during the robot's task execution, with a total of 24 complete task episodes, amounting to 18,629 time steps (frames) across 3 distinct tasks. The data is stored in chunks, with a total raw data file size of approximately 100 MB, and the associated video files totaling around 200 MB. The video frame rate is set to 30 FPS, and the entire dataset is split into a single training set that includes all 24 episodes. Its core structural components are as follows: 1) Actions: a 14-dimensional floating-point vector that controls the joint and gripper positions of both the left and right arms; 2) State observations: a 14-dimensional floating-point vector that records real-time positional data; 3) Image observations: synchronized video streams from three fixed viewpoints, with a resolution of 640x360 pixels in RGB format; 4) Metadata: including timestamps, frame indices, and other related information. This dataset is applicable to research tasks such as robot imitation learning, reinforcement learning, policy learning, and multi-modal robotic control.
提供机构:
Allen Institute for AI
创建时间:
2026-05-20
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人学习领域,模仿学习依赖于高质量的任务演示数据。eval_molmoact_pipette_ood数据集基于LeRobot框架构建,旨在为双臂机器人操控任务提供分布外泛化评估的基准。该数据集包含24个演示片段,共计18,629帧,涵盖3种不同任务。数据通过双YAM跟随机器人采集,以30帧/秒的速率记录,确保时间分辨率的精细度。每条轨迹均以Parquet格式存储动作与观测状态,而视觉信息则以AV1编码的MP4视频文件保存,分别来自右、左、顶三个视角,图像分辨率为360×640像素。数据集划分为单一训练集(0至24片段),便于模型训练与评估的标准化。
特点
该数据集的核心特点在于其针对分布外场景的评测意图。动作空间与观测状态均包含14维实数向量,对应双臂各6个关节位置及2个夹爪状态,结构对称且物理意义明确。视觉观测提供多视角覆盖,增强环境感知的冗余性。数据集总大小约300MB,其中视频数据占主要部分,反映了真实机器人操作中视觉信息的高采样需求。所有特征均按LeRobot标准定义,支持高效的帧级索引与任务标签,便于研究者直接使用或扩展。
使用方法
使用该数据集时,推荐借助LeRobot库进行加载与预处理。用户可调用`datasets.load_dataset`函数直接读取Parquet与视频文件,获得结构化的帧序列。由于数据已按1000帧分块存储,内存管理更为便捷。在训练模仿学习模型时,可从`action`字段提取控制指令,从`observation.state`获取关节状态,并利用`observation.images`的多视角图像作为视觉输入。数据集的`task_index`字段支持多任务学习场景,而`episode_index`则便于按演示片段进行交叉验证。建议在分布外评测中,使用此数据集与标准分布内数据进行对比实验。
背景与挑战
背景概述
随着机器人学习领域的迅速发展,模仿学习与遥操作数据的获取成为推动智能体泛化能力的关键瓶颈。eval_molmoact_pipette_ood 数据集由 Hugging Face LeRobot 团队构建,发布于2024年,旨在评估多模态机器人操作模型在分布外场景下的泛化性能。该数据集依托双机械臂平台(bi_yam_follower),采集了3种精细操作任务的24个专家演示片段,共计18629帧,包含高保真动作与状态序列。其核心研究问题聚焦于模型在未见过的物体位姿、光照条件或环境布局下的任务执行力,对评估机器人学中”开放世界“操作能力的鲁棒性具有标杆意义,尤其为模仿学习在安全关键场景中的部署提供了标准化测试基准。
当前挑战
当前数据集面临的首要领域挑战是分布外泛化的脆弱性:机器人模型在训练分布内表现优异,但面对未施加约束的物品种类、抓取姿态或背景变化时,成功率急剧下降。构建过程中的挑战则体现在遥操作数据的高成本与低容错性,24个演示片段需在严格控制的实验环境下由人类专家反复执行以消除冗余噪声,同时14维高维关节动作空间与多视角视觉观测(左、右、顶部摄像头)的同步记录对硬件同步精度与存储架构(含视频编解码为AV1格式)提出了严苛要求,且仅有100MB数据量下隐含了样本效率与任务多样性之间的固有矛盾。
常用场景
经典使用场景
在机器人学习领域,评估模型在分布外(Out-of-Distribution, OOD)场景下的泛化能力是核心挑战之一。eval_molmoact_pipette_ood数据集专为此设计,提供了基于双机械臂(bi_yam_follower)执行移液操作的精细运动数据,包含24个回合、超过1.8万帧的高频动作序列及多视角视觉观测。该数据集常用于评估模仿学习或强化学习模型在面对未见过的环境、物体配置或操作轨迹时的鲁棒性,通过对比训练集与测试集之间的特征差异,衡量算法对分布偏移的敏感度。
实际应用
在精密制造与生物医学自动化中,机器人移液操作的可靠性直接关乎实验效率与数据质量。该数据集模拟了实际场景中的常见偏移,如移液器角度偏移、容器位置变化或视觉遮挡,可用于训练在实验室环境中稳定运行的机器人系统。通过评估模型对这些扰动的耐受性,工程团队能优化控制算法,减少因环境噪声导致的失败率。此外,该数据集还为自动化科研平台的部署提供了验证基准,有助于加速从仿真到真实环境的迁移。
衍生相关工作
基于该数据集,研究者已开发出多种OOD检测与泛化增强技术。例如,结合逆强化学习与能量模型的方法,通过提取移液操作的关键轨迹特征,区分已知与未知状态;基于元学习的工作则利用该数据集的批量任务结构,训练快速适应新分布的策略。此外,多模态融合模型(如结合触觉与视觉信息)也在此基准下验证了抗干扰能力的提升。这些探索共同拓展了机器人学习在非结构化环境中的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作