taco_play
收藏Hugging Face2025-02-21 更新2025-04-08 收录
下载链接:
官方服务:
资源简介:
该数据集是通过LeRobot创建的,主要应用于机器人技术领域。数据集包含3603个总片段,237798帧,406个任务和7206个视频。数据集结构包括观察图像(静态RGB和夹持器RGB)、语言指令、状态观察、动作、时间戳等多种特征。所有数据以parquet格式存储,视频以mp4格式存储。数据集的相关研究发表在CoRL和ICRA等顶级机器人会议上。
This dataset was developed using LeRobot and is primarily targeted for robotics-related research and applications. It comprises 3603 total segments, 237,798 frames, 406 tasks, and 7206 video files. The dataset's structure includes multiple types of features: observation images (static RGB and gripper RGB), language instructions, state observations, actions, timestamps, and more. All non-video structured data is stored in Parquet format, while the video files are saved in MP4 format. Relevant research utilizing this dataset has been published in top-tier robotics conferences such as CoRL and ICRA.
提供机构:
lerobot
创建时间:
2024-08-23
原始信息汇总
数据集概述
基本信息
- 名称: taco_play
- 主页: https://www.kaggle.com/datasets/oiermees/taco-robot
- 许可证: CC-BY-4.0
- 任务类别: 机器人学
- 标签: LeRobot
数据集结构
- 总剧集数: 3603
- 总帧数: 237798
- 总任务数: 406
- 总视频数: 7206
- 总块数: 4
- 块大小: 1000
- 帧率: 15 FPS
- 分割: 训练集 (0:3603)
数据文件路径
- 数据路径:
data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet - 视频路径:
videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
特征描述
-
observation.images.rgb_static
- 类型: 视频
- 形状: [150, 200, 3]
- 视频信息:
- 帧率: 15.0
- 编解码器: av1
- 像素格式: yuv420p
- 无音频
-
observation.images.rgb_gripper
- 类型: 视频
- 形状: [84, 84, 3]
- 视频信息:
- 帧率: 15.0
- 编解码器: av1
- 像素格式: yuv420p
- 无音频
-
language_instruction
- 类型: 字符串
- 形状: [1]
-
observation.state
- 类型: float32
- 形状: [7]
- 名称: motor_0 到 motor_6
-
action
- 类型: float32
- 形状: [7]
- 名称: motor_0 到 motor_6
-
timestamp
- 类型: float32
- 形状: [1]
-
episode_index
- 类型: int64
- 形状: [1]
-
frame_index
- 类型: int64
- 形状: [1]
-
next.reward
- 类型: float32
- 形状: [1]
-
next.done
- 类型: bool
- 形状: [1]
-
index
- 类型: int64
- 形状: [1]
-
task_index
- 类型: int64
- 形状: [1]
相关论文
-
Latent Plans for Task Agnostic Offline Reinforcement Learning
- 作者: Erick Rosete-Beas 等
- 会议: Proceedings of the 6th Conference on Robot Learning (CoRL)
- 年份: 2022
- 链接: https://arxiv.org/abs/2209.08959
-
Grounding Language with Visual Affordances over Unstructured Data
- 作者: Oier Mees 等
- 会议: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA)
- 年份: 2023
- 链接: https://arxiv.org/abs/2210.01911
搜集汇总
数据集介绍

构建方式
在机器人学习领域,高质量的数据集对于推动任务无关的离线强化学习至关重要。Taco_play数据集依托LeRobot框架构建,通过采集真实机器人交互数据,系统性地记录了3603个完整交互片段,涵盖237798帧视觉与状态信息。数据以分块形式存储于Parquet格式文件中,每块包含1000个片段,确保了高效的数据管理与访问。该构建过程严格遵循科学实验流程,为机器人策略学习提供了坚实的多模态数据基础。
特点
该数据集在机器人感知与控制研究中展现出显著的多模态特性。其核心特征在于同时提供了静态环境与夹爪视角的双路RGB视频流,分辨率分别为150×200与84×84,帧率统一为15fps。数据集还整合了七维关节状态与动作向量、语言指令以及时间戳等结构化信息,形成了观测、动作与奖励的完整序列。这种丰富的特征组合使得数据集能够支持从视觉推理到运动规划的多样化机器人学习任务。
使用方法
研究人员可利用该数据集进行任务无关的离线强化学习算法验证与模型训练。典型使用流程包括通过指定路径加载分块数据,提取视觉观测、状态向量及对应动作序列,进而构建马尔可夫决策过程。数据集中预定义的语言指令可用于条件策略学习,而奖励与终止信号则为价值函数估计提供监督。用户可依据论文所述方法,基于该数据集训练潜在空间策略或进行视觉语言 grounding 研究,推动机器人泛化能力的发展。
背景与挑战
背景概述
在机器人学习领域,如何让智能体从离线数据中学习通用技能,一直是核心研究议题。Taco_Play数据集由HuggingFace的LeRobot团队于2022年构建,其研究基础源自《Latent Plans for Task Agnostic Offline Reinforcement Learning》与《Grounding Language with Visual Affordances over Unstructured Data》两篇论文。该数据集旨在探索任务无关的离线强化学习,通过整合视觉观察、语言指令与机器人动作序列,为模型提供丰富的多模态交互经验。其包含超过3600条轨迹和23万帧数据,覆盖406项任务,显著推动了机器人从被动数据中学习泛化策略的研究进程,为后续基于视觉与语言结合的机器人控制方法奠定了实证基础。
当前挑战
Taco_Play数据集致力于解决机器人任务无关离线强化学习中的核心难题,即如何从异构的离线交互数据中提取可迁移的潜在策略。这一领域挑战在于,机器人需在未见过的新任务中仅凭历史经验做出有效决策,而无需在线试错。在构建过程中,数据采集面临多模态对齐的复杂性,需同步记录静态摄像头、夹爪摄像头图像、七维电机状态及自然语言指令,并确保时序一致性。此外,大规模轨迹数据的存储与处理要求高效编码与压缩,以管理数百GB的视频与状态序列,同时保持数据结构的可扩展性与访问效率。
常用场景
经典使用场景
在机器人学习领域,taco_play数据集为任务无关的离线强化学习提供了丰富的多模态交互轨迹。该数据集通过静态摄像头和夹爪摄像头的视觉输入,结合七自由度机械臂的状态与动作序列,构建了从语言指令到机器人执行的完整映射。研究者通常利用这些轨迹训练模型学习潜在策略表示,从而在未见过的任务中实现零样本泛化,推动机器人自主执行多样化操作。
实际应用
在实际机器人部署中,taco_play数据集能够助力开发通用型机器人控制系统,适用于家庭服务、工业装配等场景。基于其丰富的视觉与动作配对数据,可训练模型理解自然语言指令,并直接生成相应的机器人运动轨迹,实现如物体抓取、摆放等日常操作。这种数据驱动的方法降低了机器人编程门槛,提升了在非结构化环境中的适应能力。
衍生相关工作
围绕taco_play数据集,已衍生出多项经典研究工作。例如,Latent Plans for Task Agnostic Offline Reinforcement Learning 提出了利用潜在计划进行任务无关策略学习的方法;Grounding Language with Visual Affordances over Unstructured Data 则探索了如何在非结构化数据中通过视觉可操作性基础语言指令。这些工作共同推进了多模态机器人学习的前沿,为后续基于大规模演示数据的通用机器人智能研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



