robocasa_target_atomic
收藏Hugging Face2026-04-03 更新2026-04-04 收录
下载链接:
https://huggingface.co/datasets/BrunoM42/robocasa_target_atomic
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个机器人学领域的数据集,使用LeRobot工具创建。数据集包含9,126个训练片段,总计2,231,347帧,涵盖231个不同任务。数据以parquet文件格式存储,视频数据以mp4格式存储。数据集包含多种观测特征,包括机器人手眼摄像头和代理视角的左右摄像头采集的256x256 RGB图像(帧率20fps),以及机器人状态(16维浮点数)、动作(12维浮点数)、奖励信号(单浮点数)和完成标志(布尔值)。此外,数据集还包含时间戳、帧索引、片段索引和任务索引等元数据。该数据集适用于机器人视觉、状态-动作-奖励建模等机器人学习任务,采用Apache-2.0许可协议。
创建时间:
2026-03-29
原始信息汇总
数据集概述
基本信息
- 数据集名称: BrunoM42/robocasa_target_atomic
- 创建工具: 使用 LeRobot 创建
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot
数据集规模
- 总情节数: 9,126
- 总帧数: 2,231,347
- 总任务数: 231
- 数据块大小: 1,000
- 数据文件总大小: 100 MB
- 视频文件总大小: 200 MB
- 帧率: 20 FPS
- 数据划分: 训练集 (0:9126)
数据结构
- 数据文件路径模式:
data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet - 视频文件路径模式:
videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据特征
观察特征
- observation.images.robot0_eye_in_hand
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频信息: 帧率20 FPS,编码h264,像素格式yuv420p,非深度图,无音频
- observation.images.robot0_agentview_left
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频信息: 帧率20 FPS,编码h264,像素格式yuv420p,非深度图,无音频
- observation.images.robot0_agentview_right
- 数据类型: 视频
- 形状: [256, 256, 3]
- 视频信息: 帧率20 FPS,编码h264,像素格式yuv420p,非深度图,无音频
- observation.state
- 数据类型: float64
- 形状: [16]
- 帧率: 20 FPS
动作与标注特征
- action
- 数据类型: float64
- 形状: [12]
- 帧率: 20 FPS
- annotation.human.task_description
- 数据类型: int64
- 形状: [1]
- 帧率: 20 FPS
- annotation.human.task_name
- 数据类型: int64
- 形状: [1]
- 帧率: 20 FPS
元数据与索引特征
- next.reward
- 数据类型: float32
- 形状: [1]
- 帧率: 20 FPS
- next.done
- 数据类型: bool
- 形状: [1]
- 帧率: 20 FPS
- timestamp
- 数据类型: float32
- 形状: [1]
- frame_index
- 数据类型: int64
- 形状: [1]
- episode_index
- 数据类型: int64
- 形状: [1]
- index
- 数据类型: int64
- 形状: [1]
- task_index
- 数据类型: int64
- 形状: [1]
机器人信息
- 机器人类型: PandaOmron
- 代码库版本: v3.0
引用信息
- 主页: 信息缺失
- 论文: 信息缺失
- BibTeX 引用: 信息缺失
搜集汇总
数据集介绍

构建方式
在机器人学习领域,高质量的数据集对于算法训练至关重要。robocasa_target_atomic数据集依托LeRobot框架构建,通过PandaOmron机器人平台采集了涵盖231项任务的9126个交互片段,总计超过223万帧数据。数据以分块形式存储于Parquet文件中,每块包含1000帧,确保了高效的数据管理与访问。视频数据以20帧每秒的速率记录,采用H.264编码和YUV420p像素格式,提供了稳定且标准化的视觉输入。
特点
该数据集在机器人操作任务中展现出显著的多模态特性。其核心特征在于整合了机器人手眼相机与全局视角的双目视觉流,每路视频分辨率均为256x256像素的三通道图像,为模型提供了丰富的空间感知信息。同时,数据集包含16维的机器人状态向量和12维的动作空间,辅以任务描述与名称的标注,以及奖励与终止信号,构成了完整的强化学习环境。这种结构化的特征设计支持端到端的策略学习与行为克隆研究。
使用方法
为促进机器人学习研究的可复现性,robocasa_target_atomic数据集提供了清晰的加载路径。研究者可通过解析meta/info.json中的配置信息,依据指定的数据路径格式访问分块的Parquet文件与对应的MP4视频。数据集目前仅包含训练划分,适用于模型训练与验证。用户可提取观测图像、状态、动作及标注等字段,用于训练视觉运动策略或进行离线强化学习分析,其标准化的数据格式确保了与主流机器学习框架的兼容性。
背景与挑战
背景概述
在机器人学习领域,大规模、高质量的数据集对于推动机器人操作技能的泛化能力至关重要。robocasa_target_atomic数据集由LeRobot项目团队构建,旨在为机器人操作任务提供丰富的多模态交互数据。该数据集聚焦于原子级目标导向任务,涵盖了超过九千个任务片段和两百余万帧数据,采用PandaOmron机器人平台采集,包含多视角视觉观测、机器人状态及动作序列。其核心研究问题在于如何通过海量真实世界交互数据,提升机器人对复杂环境变化的适应性和任务执行的鲁棒性,为机器人模仿学习与强化学习算法的训练与评估提供了重要基础。
当前挑战
该数据集致力于解决机器人操作任务中的泛化与适应性挑战,特别是在非结构化环境中执行多样化原子动作的难题。构建过程中面临多重挑战:首先,数据采集需协调机器人硬件、传感器与软件系统,确保多模态数据的时间同步与空间对齐;其次,标注大规模交互数据需要精确的任务描述与动作分割,以保持数据的一致性与可用性;此外,处理高维视觉与状态数据对存储与计算资源提出较高要求,需优化数据压缩与存取效率。这些挑战共同指向了机器人数据集在规模扩展、质量保证与实用价值之间的平衡问题。
常用场景
经典使用场景
在机器人学习领域,robocasa_target_atomic数据集为模仿学习与强化学习算法提供了丰富的训练资源。该数据集通过PandaOmron机器人采集了超过九千条交互轨迹,涵盖二百三十一项原子化任务,其多视角视觉观测与状态动作序列的同步记录,使得研究者能够深入探索从感知到决策的端到端控制策略。经典使用场景聚焦于家庭环境中的物体操作,如抓取、放置等精细动作,为算法在复杂场景下的泛化能力评估奠定了数据基础。
衍生相关工作
围绕该数据集,已衍生出多项机器人学习领域的经典研究工作。例如,基于其多视角视觉输入开发的新型视觉编码器,提升了状态表征的判别能力;利用其密集奖励信号设计的混合奖励函数,加速了策略收敛过程。此外,数据集支撑的跨任务元学习框架,实现了技能组合与零样本迁移,为后续构建大规模机器人操作基准测试提供了重要的方法论借鉴。
数据集最近研究
最新研究方向
在机器人操作领域,robocasa_target_atomic数据集凭借其丰富的多视角视觉数据与结构化动作序列,正成为推动具身智能发展的关键资源。该数据集聚焦于原子化任务执行,其海量轨迹记录为模仿学习与强化学习算法的训练提供了坚实基础。当前研究热点集中于利用此类大规模真实世界数据,探索跨任务泛化能力与零样本操作策略,旨在突破传统机器人编程的局限,实现更灵活自主的家庭服务机器人。随着生成式人工智能与多模态模型的融合,该数据集在视觉语言动作联合建模方面的潜力日益凸显,为构建能够理解自然语言指令并执行复杂操作的智能体开辟了新路径。
以上内容由遇见数据集搜集并总结生成



