robocasa_target_atomic

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/BrunoM42/robocasa_target_atomic

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学领域的数据集，使用LeRobot工具创建。数据集包含9,126个训练片段，总计2,231,347帧，涵盖231个不同任务。数据以parquet文件格式存储，视频数据以mp4格式存储。数据集包含多种观测特征，包括机器人手眼摄像头和代理视角的左右摄像头采集的256x256 RGB图像（帧率20fps），以及机器人状态（16维浮点数）、动作（12维浮点数）、奖励信号（单浮点数）和完成标志（布尔值）。此外，数据集还包含时间戳、帧索引、片段索引和任务索引等元数据。该数据集适用于机器人视觉、状态-动作-奖励建模等机器人学习任务，采用Apache-2.0许可协议。

创建时间：

2026-03-29

原始信息汇总

数据集概述

基本信息

数据集名称: BrunoM42/robocasa_target_atomic
创建工具: 使用 LeRobot 创建
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模

总情节数: 9,126
总帧数: 2,231,347
总任务数: 231
数据块大小: 1,000
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 20 FPS
数据划分: 训练集 (0:9126)

数据结构

数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

观察特征

observation.images.robot0_eye_in_hand
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频信息: 帧率20 FPS，编码h264，像素格式yuv420p，非深度图，无音频
observation.images.robot0_agentview_left
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频信息: 帧率20 FPS，编码h264，像素格式yuv420p，非深度图，无音频
observation.images.robot0_agentview_right
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频信息: 帧率20 FPS，编码h264，像素格式yuv420p，非深度图，无音频
observation.state
- 数据类型: float64
- 形状: [16]
- 帧率: 20 FPS

动作与标注特征

action
- 数据类型: float64
- 形状: [12]
- 帧率: 20 FPS
annotation.human.task_description
- 数据类型: int64
- 形状: [1]
- 帧率: 20 FPS
annotation.human.task_name
- 数据类型: int64
- 形状: [1]
- 帧率: 20 FPS

元数据与索引特征

next.reward
- 数据类型: float32
- 形状: [1]
- 帧率: 20 FPS
next.done
- 数据类型: bool
- 形状: [1]
- 帧率: 20 FPS
timestamp
- 数据类型: float32
- 形状: [1]
frame_index
- 数据类型: int64
- 形状: [1]
episode_index
- 数据类型: int64
- 形状: [1]
index
- 数据类型: int64
- 形状: [1]
task_index
- 数据类型: int64
- 形状: [1]

机器人信息

机器人类型: PandaOmron
代码库版本: v3.0

引用信息

主页: 信息缺失
论文: 信息缺失
BibTeX 引用: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集对于算法训练至关重要。robocasa_target_atomic数据集依托LeRobot框架构建，通过PandaOmron机器人平台采集了涵盖231项任务的9126个交互片段，总计超过223万帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与访问。视频数据以20帧每秒的速率记录，采用H.264编码和YUV420p像素格式，提供了稳定且标准化的视觉输入。

特点

该数据集在机器人操作任务中展现出显著的多模态特性。其核心特征在于整合了机器人手眼相机与全局视角的双目视觉流，每路视频分辨率均为256x256像素的三通道图像，为模型提供了丰富的空间感知信息。同时，数据集包含16维的机器人状态向量和12维的动作空间，辅以任务描述与名称的标注，以及奖励与终止信号，构成了完整的强化学习环境。这种结构化的特征设计支持端到端的策略学习与行为克隆研究。

使用方法

为促进机器人学习研究的可复现性，robocasa_target_atomic数据集提供了清晰的加载路径。研究者可通过解析meta/info.json中的配置信息，依据指定的数据路径格式访问分块的Parquet文件与对应的MP4视频。数据集目前仅包含训练划分，适用于模型训练与验证。用户可提取观测图像、状态、动作及标注等字段，用于训练视觉运动策略或进行离线强化学习分析，其标准化的数据格式确保了与主流机器学习框架的兼容性。

背景与挑战

背景概述

在机器人学习领域，大规模、高质量的数据集对于推动机器人操作技能的泛化能力至关重要。robocasa_target_atomic数据集由LeRobot项目团队构建，旨在为机器人操作任务提供丰富的多模态交互数据。该数据集聚焦于原子级目标导向任务，涵盖了超过九千个任务片段和两百余万帧数据，采用PandaOmron机器人平台采集，包含多视角视觉观测、机器人状态及动作序列。其核心研究问题在于如何通过海量真实世界交互数据，提升机器人对复杂环境变化的适应性和任务执行的鲁棒性，为机器人模仿学习与强化学习算法的训练与评估提供了重要基础。

当前挑战

该数据集致力于解决机器人操作任务中的泛化与适应性挑战，特别是在非结构化环境中执行多样化原子动作的难题。构建过程中面临多重挑战：首先，数据采集需协调机器人硬件、传感器与软件系统，确保多模态数据的时间同步与空间对齐；其次，标注大规模交互数据需要精确的任务描述与动作分割，以保持数据的一致性与可用性；此外，处理高维视觉与状态数据对存储与计算资源提出较高要求，需优化数据压缩与存取效率。这些挑战共同指向了机器人数据集在规模扩展、质量保证与实用价值之间的平衡问题。

常用场景

经典使用场景

在机器人学习领域，robocasa_target_atomic数据集为模仿学习与强化学习算法提供了丰富的训练资源。该数据集通过PandaOmron机器人采集了超过九千条交互轨迹，涵盖二百三十一项原子化任务，其多视角视觉观测与状态动作序列的同步记录，使得研究者能够深入探索从感知到决策的端到端控制策略。经典使用场景聚焦于家庭环境中的物体操作，如抓取、放置等精细动作，为算法在复杂场景下的泛化能力评估奠定了数据基础。

衍生相关工作

围绕该数据集，已衍生出多项机器人学习领域的经典研究工作。例如，基于其多视角视觉输入开发的新型视觉编码器，提升了状态表征的判别能力；利用其密集奖励信号设计的混合奖励函数，加速了策略收敛过程。此外，数据集支撑的跨任务元学习框架，实现了技能组合与零样本迁移，为后续构建大规模机器人操作基准测试提供了重要的方法论借鉴。

数据集最近研究