lerobot/nyu_franka_play_dataset
收藏Hugging Face2025-02-20 更新2025-04-08 收录
下载链接:
https://hf-mirror.com/datasets/lerobot/nyu_franka_play_dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个机器人学数据集,包含456个剧集、44875帧和912个视频。数据集以Parquet格式存储,每个文件包含1000个数据块。数据集提供了机器人的观察图像、额外视角图像、状态、动作等信息,并包含了时间戳、奖励和完成标志等。数据集适用于训练机器人策略,特别是从非精选的机器人数据中生成有条件的行为。
This is a robotics dataset containing 456 episodes, 44875 frames, and 912 videos. The dataset is stored in Parquet format, with each file containing 1000 data chunks. The dataset provides information such as robot observation images, additional view images, states, actions, timestamps, rewards, and done flags. It is suitable for training robot policies, especially for generating conditional behaviors from uncurated robot data.
提供机构:
lerobot
搜集汇总
数据集介绍

构建方式
该数据集源自纽约大学(NYU)的Franka机器人平台,基于“从玩耍到策略”(Play-to-Policy)研究范式构建,旨在通过非结构化的机器人自由操作数据学习通用行为策略。数据集采用LeRobot框架进行标准化处理,共收录456个演示片段,总计44,875帧时序数据,采样频率为5帧/秒。每条轨迹包含13维关节状态、15维动作指令、两路128×128像素的视觉图像(主视角与辅助视角)以及语言指令标注。数据以Parquet格式存储结构化信息,视频流采用AV1编码压缩,并按照训练集与验证集进行划分,便于后续模型训练与评估。
特点
数据集的核心特点在于其“非策划性”(uncurated)采集方式,即不依赖人工精细演示或任务分割,而是通过机器人自由探索与人类远程操控相结合的方式生成多样化行为数据。相较于传统机器人数据集,该数据强调行为的连续性与随机性,涵盖抓取、推拉、放置等多种操作模式。每条轨迹均附带自然语言指令,为多模态学习与语言条件策略提供了基础。此外,数据采用高帧率低分辨率图像与关节状态对齐,兼顾了存储效率与信息完整性,适合用于模仿学习与行为克隆等机器人学习任务。
使用方法
用户可通过HuggingFace数据集库直接加载该数据集,使用LeRobot提供的API进行数据流式读取与预处理。典型用法包括:利用`load_dataset('lerobot/nyu_franka_play_dataset')`获取完整数据,随后通过`dataset['train']`访问训练集。每条样本包含`observation.state`、`action`、`observation.images.image`等键值,可分别用于状态输入、动作预测与视觉观察建模。建议将视频帧解码为张量后,与状态向量拼接形成多模态输入,并利用语言指令作为条件信号训练条件策略网络。数据集已预设训练/验证划分,用户可直接用于监督学习或离线强化学习实验。
背景与挑战
背景概述
在机器人学习领域,如何从非结构化的、未经精心策划的交互数据中提取可泛化的行为策略,一直是制约智能体自主能力发展的核心瓶颈。由纽约大学研究团队于2022年创建的NYU Franka Play数据集,正是为应对这一挑战而生。该数据集依托LeRobot框架构建,收录了456个机器人操作片段,包含近45,000帧高保真视觉与状态动作序列,聚焦于单一操作任务。其核心研究问题在于探索“从玩耍到策略”的范式:即利用人类自然示教中产生的杂乱、多模态数据,训练出能够理解语言指令并生成条件化行为的机器人策略。该数据集及其配套论文《From Play to Policy》在机器人行为生成领域产生了深远影响,为摆脱对昂贵、精心标注的专家示范数据的依赖提供了关键数据基础。
当前挑战
当前数据集面临的主要挑战体现在两个层面。首先,在领域问题层面,数据集仅包含单一任务场景,且数据采集于受控实验室环境,这严重限制了策略的泛化能力——模型难以应对真实世界中任务多样性、物体布局变化及动态干扰。其次,在构建过程中,数据集虽提供了双视角128×128像素的视觉输入,但其低分辨率与5Hz的低采样率可能丢失精细操作所需的时空细节;同时,13维状态空间与15维动作空间之间的维度不匹配,暗示了未建模的动力学冗余或传感器噪声,这对策略学习的因果推断构成了潜在障碍。此外,缺乏跨任务、跨场景的标准化评估协议,使得不同方法在该数据集上的性能比较缺乏共识基础。
常用场景
经典使用场景
在机器人学习与自主操控的研究前沿,lerobot/nyu_franka_play_dataset作为从无约束交互数据中提炼行为策略的典范,其经典使用场景聚焦于基于视觉与状态信息的模仿学习与行为生成。该数据集包含456个由Franka机械臂采集的完整演示片段,每帧均提供128×128像素的多视角图像、13维关节状态及15维末端执行器动作,配合语言指令注释,为构建条件式行为生成模型提供了丰富且对齐的观测-动作对,尤其适用于训练能够从非结构化、无奖励信号的人类演示中自主习得复杂操控技能的策略网络。
实际应用
在实际应用中,该数据集为工业与家庭服务机器人的技能习得提供了低成本、高泛化能力的解决方案。基于此数据训练的操控模型可迁移至物体抓取、工具使用等日常操作任务,在无需重新编程或收集昂贵专家演示的前提下,使机器人快速适应新环境与物体变化。其多模态融合特性(视觉、状态与语言)还支持自然语言指令驱动的任务执行,为人机协作与智能家居场景中的柔性制造和辅助生活系统提供了可落地的技术路径。
衍生相关工作
该数据集催生了一系列开创性研究,其中最经典的工作源自其本论文《From Play to Policy: Conditional Behavior Generation from Uncurated Robot Data》。该工作首次系统性地提出利用“玩耍”数据训练条件式行为生成模型,后续衍生出多个改进方向,包括引入扩散模型进行高维动作空间建模、结合隐变量表征实现多任务泛化,以及探索基于跨模态对齐的零样本操控。这些成果共同推动了机器人从结构化演示学习向非结构化、无监督行为涌现的范式跃迁,成为行为克隆与离线强化学习交叉领域的重要里程碑。
以上内容由遇见数据集搜集并总结生成



