BrunoM42/robocasa_target_PickPlaceSinkToCounter
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/BrunoM42/robocasa_target_PickPlaceSinkToCounter
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- robotics
tags:
- LeRobot
configs:
- config_name: default
data_files: data/*/*.parquet
---
This dataset was created using [LeRobot](https://github.com/huggingface/lerobot).
## Dataset Description
- **Homepage:** [More Information Needed]
- **Paper:** [More Information Needed]
- **License:** apache-2.0
## Dataset Structure
[meta/info.json](meta/info.json):
```json
{
"codebase_version": "v3.0",
"robot_type": "PandaOmron",
"total_episodes": 501,
"total_frames": 194952,
"total_tasks": 34,
"chunks_size": 1000,
"fps": 20,
"splits": {
"train": "0:501"
},
"data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet",
"video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4",
"features": {
"observation.images.robot0_eye_in_hand": {
"dtype": "video",
"shape": [
256,
256,
3
],
"names": [
"height",
"width",
"channel"
],
"video_info": {
"video.fps": 20,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"has_audio": false
},
"info": {
"video.height": 256,
"video.width": 256,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 20,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.robot0_agentview_left": {
"dtype": "video",
"shape": [
256,
256,
3
],
"names": [
"height",
"width",
"channel"
],
"video_info": {
"video.fps": 20,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"has_audio": false
},
"info": {
"video.height": 256,
"video.width": 256,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 20,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.robot0_agentview_right": {
"dtype": "video",
"shape": [
256,
256,
3
],
"names": [
"height",
"width",
"channel"
],
"video_info": {
"video.fps": 20,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"has_audio": false
},
"info": {
"video.height": 256,
"video.width": 256,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 20,
"video.channels": 3,
"has_audio": false
}
},
"annotation.human.task_description": {
"dtype": "int64",
"shape": [
1
],
"fps": 20
},
"annotation.human.task_name": {
"dtype": "int64",
"shape": [
1
],
"fps": 20
},
"observation.state": {
"dtype": "float64",
"shape": [
16
],
"fps": 20
},
"action": {
"dtype": "float64",
"shape": [
12
],
"fps": 20
},
"next.reward": {
"dtype": "float32",
"shape": [
1
],
"fps": 20
},
"next.done": {
"dtype": "bool",
"shape": [
1
],
"fps": 20
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null,
"fps": 20
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null,
"fps": 20
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null,
"fps": 20
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null,
"fps": 20
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null,
"fps": 20
}
},
"data_files_size_in_mb": 100,
"video_files_size_in_mb": 200
}
```
## Citation
**BibTeX:**
```bibtex
[More Information Needed]
```
提供机构:
BrunoM42
搜集汇总
数据集介绍

构建方式
在机器人操作学习领域,高质量的数据集是推动算法发展的基石。robocasa_target_PickPlaceSinkToCounter数据集依托LeRobot平台构建,通过PandaOmron机器人执行从水槽拾取物品并放置到台面的具体任务。数据采集过程以20帧每秒的频率记录,生成了501条完整轨迹,总计包含超过19万帧数据。这些数据被结构化地存储在Parquet格式文件中,并按每1000帧一个块进行组织,确保了数据的高效存取与处理。
特点
该数据集在机器人视觉与状态感知方面展现出显著特色。它提供了多视角的RGB视频流,包括手眼相机和两个固定视角,所有图像分辨率均为256x256,编码格式统一,保障了视觉信息的一致性。同时,数据集整合了机器人的16维状态向量、12维动作指令以及任务完成标志与奖励信号,形成了状态-动作-奖励的完整闭环。这种多模态、高同步性的数据结构,为端到端的模仿学习与强化学习算法提供了丰富的训练素材。
使用方法
研究人员可利用该数据集进行机器人操作策略的学习与验证。数据集已预分为训练集,用户可通过加载指定的Parquet数据块来访问图像、状态、动作等特征序列。配套的视频文件可按路径独立获取,便于进行可视化分析。在实际应用中,该数据集适用于训练视觉运动策略模型,评估其在多步骤操作任务上的泛化能力,是开发家庭场景下机器人灵巧操作系统的宝贵资源。
背景与挑战
背景概述
在机器人学习领域,模仿学习与强化学习的发展亟需高质量、大规模的真实世界交互数据作为支撑。robocasa_target_PickPlaceSinkToCounter数据集应运而生,它由Hugging Face的LeRobot项目团队创建,专注于家庭环境中的机器人操作任务。该数据集的核心研究问题在于如何让机器人从视觉观察中学习复杂的物体抓取与放置技能,具体模拟了从水槽拾取物品并放置到台面的日常场景。通过提供多视角视频流、机器人状态与动作序列,该数据集为视觉运动策略学习提供了宝贵的实验平台,推动了具身智能在非结构化环境中的适应性研究。
当前挑战
该数据集旨在解决机器人操作中视觉运动控制的挑战,特别是在动态、非结构化家庭环境中执行精确的拾放任务。其面临的领域问题挑战包括:如何从高维视觉输入中提取有效的场景表示,以及如何生成鲁棒且连续的动作序列以应对物体姿态变化与环境干扰。在构建过程中,挑战主要集中于数据采集的复杂性与一致性:需要协调机器人硬件同步多摄像头录制,确保视频流与状态动作数据的时间对齐,同时处理大规模数据存储与高效访问,并保证任务执行的多样性与真实性以覆盖现实世界的变异性。
常用场景
经典使用场景
在机器人操作学习领域,robocasa_target_PickPlaceSinkToCounter数据集聚焦于模拟家庭环境中从水槽到台面的拾取放置任务,为机器人视觉运动策略的研发提供了丰富的多视角视觉与状态数据。该数据集通过501个任务片段和近20万帧图像序列,捕捉了PandaOmron机械臂在复杂场景下的操作轨迹,成为训练端到端模仿学习与强化学习模型的基准资源。研究者可借助其结构化观测与动作序列,探索机器人如何从视觉输入中理解任务语义并生成精确控制指令,推动家庭服务机器人的自主操作能力。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在视觉运动策略的泛化与迁移学习方向上。例如,结合LeRobot框架的研究者利用其序列数据开发了基于Transformer的跨任务策略网络,实现了从水槽到台面操作的知识迁移。同时,该数据集也催生了针对稀疏奖励环境下高效模仿学习的算法改进,以及多传感器融合的端到端控制架构探索,这些成果进一步丰富了机器人学习社区的算法库与评估基准。
数据集最近研究
最新研究方向
在机器人操作领域,robocasa_target_PickPlaceSinkToCounter数据集作为LeRobot项目的一部分,正推动着基于视觉的模仿学习与强化学习的前沿探索。该数据集聚焦于厨房环境中的拾放任务,通过多视角视频流与状态动作序列的精细标注,为模型提供了丰富的时空交互信息。当前研究热点集中于利用此类大规模真实世界数据,训练端到端的策略网络,以提升机器人在复杂场景下的泛化能力与鲁棒性。随着具身智能的兴起,该数据集在促进机器人理解自然语言指令、实现零样本任务迁移方面展现出重要潜力,为家庭服务机器人的实际部署奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



