BrunoM42/robocasa_target_StirVegetables
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/BrunoM42/robocasa_target_StirVegetables
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- robotics
tags:
- LeRobot
configs:
- config_name: default
data_files: data/*/*.parquet
---
This dataset was created using [LeRobot](https://github.com/huggingface/lerobot).
## Dataset Description
- **Homepage:** [More Information Needed]
- **Paper:** [More Information Needed]
- **License:** apache-2.0
## Dataset Structure
[meta/info.json](meta/info.json):
```json
{
"codebase_version": "v3.0",
"robot_type": "PandaOmron",
"total_episodes": 501,
"total_frames": 409202,
"total_tasks": 238,
"chunks_size": 1000,
"fps": 20,
"splits": {
"train": "0:501"
},
"data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet",
"video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4",
"features": {
"observation.images.robot0_eye_in_hand": {
"dtype": "video",
"shape": [
256,
256,
3
],
"names": [
"height",
"width",
"channel"
],
"video_info": {
"video.fps": 20,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"has_audio": false
},
"info": {
"video.height": 256,
"video.width": 256,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 20,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.robot0_agentview_left": {
"dtype": "video",
"shape": [
256,
256,
3
],
"names": [
"height",
"width",
"channel"
],
"video_info": {
"video.fps": 20,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"has_audio": false
},
"info": {
"video.height": 256,
"video.width": 256,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 20,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.robot0_agentview_right": {
"dtype": "video",
"shape": [
256,
256,
3
],
"names": [
"height",
"width",
"channel"
],
"video_info": {
"video.fps": 20,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"has_audio": false
},
"info": {
"video.height": 256,
"video.width": 256,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 20,
"video.channels": 3,
"has_audio": false
}
},
"annotation.human.task_description": {
"dtype": "int64",
"shape": [
1
],
"fps": 20
},
"annotation.human.task_name": {
"dtype": "int64",
"shape": [
1
],
"fps": 20
},
"observation.state": {
"dtype": "float64",
"shape": [
16
],
"fps": 20
},
"action": {
"dtype": "float64",
"shape": [
12
],
"fps": 20
},
"next.reward": {
"dtype": "float32",
"shape": [
1
],
"fps": 20
},
"next.done": {
"dtype": "bool",
"shape": [
1
],
"fps": 20
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null,
"fps": 20
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null,
"fps": 20
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null,
"fps": 20
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null,
"fps": 20
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null,
"fps": 20
}
},
"data_files_size_in_mb": 100,
"video_files_size_in_mb": 200
}
```
## Citation
**BibTeX:**
```bibtex
[More Information Needed]
```
提供机构:
BrunoM42
搜集汇总
数据集介绍

构建方式
在机器人操作学习领域,robocasa_target_StirVegetables数据集依托LeRobot平台构建,专注于模拟厨房环境中搅拌蔬菜的复杂任务。该数据集通过PandaOmron机器人采集了501个完整操作片段,总计超过40万帧数据,以每秒20帧的速率记录。数据以分块Parquet文件形式组织,每块包含1000帧,确保了高效存储与访问。同步采集了机器人手眼视角及左右全局视角的三通道RGB视频,分辨率统一为256x256,并辅以机器人状态、动作指令及任务标注等多模态信息,为学习算法提供了丰富的时空上下文。
特点
该数据集的核心特征在于其多视角视觉感知与精细动作标注的深度融合。它提供了机器人手部(eye-in-hand)及两个外部全局视角(agentview)的高帧率视频流,全面捕捉操作过程中的动态场景。数据维度涵盖16维的机器人状态向量和12维的动作空间,并包含任务名称与描述的人工标注,支持基于自然语言的指令理解。所有数据均以时间对齐的方式组织,附带奖励、完成标志及时间戳,适用于强化学习与模仿学习的端到端训练。其结构化的特征定义与统一的视频编码格式(H.264)保障了数据的一致性与易用性。
使用方法
研究人员可利用该数据集训练和评估机器人执行搅拌蔬菜等精细操作任务的模型。数据加载可通过解析meta/info.json中的配置路径实现,按块读取Parquet文件以获取观测、动作及标注序列。多视角视频可通过指定视频键(video_key)与块索引进行流式读取。典型应用包括从视觉观测到动作的端到端策略学习、多模态表征的预训练,或基于任务描述的条件策略生成。数据集已预设训练划分(全部501个片段),支持直接用于模型训练,其标准化格式便于集成至主流机器人学习框架进行批量处理与实验复现。
背景与挑战
背景概述
在机器人学习领域,模仿学习与强化学习的研究正逐步从仿真环境迈向真实世界的复杂操作任务。robocasa_target_StirVegetables数据集作为这一趋势下的产物,专注于家庭厨房场景中的具体技能——搅拌蔬菜。该数据集由LeRobot项目团队构建,依托PandaOmron机器人平台,采集了501个任务片段,涵盖超过40万帧的多视角视觉观测与机器人状态数据。其核心研究问题在于如何让机器人通过观察人类演示,学习并泛化精细的烹饪操作,从而推动具身智能在非结构化环境中的实际应用。该数据集的发布为机器人操作技能的数据驱动方法提供了宝贵的真实世界基准,促进了从感知到动作的端到端学习模型的探索。
当前挑战
该数据集旨在解决机器人执行家庭烹饪任务,特别是搅拌蔬菜这一特定操作的模仿学习与策略泛化问题。其面临的领域挑战在于,烹饪操作涉及对非刚性物体(如蔬菜)的灵巧操控,环境动态变化显著,且任务成功标准具有主观性,这对模型的鲁棒性与适应性提出了极高要求。在构建过程中,挑战同样突出:需要协调多传感器(如手眼相机与全局视角相机)以高频率(20 FPS)同步采集海量视频与状态数据,确保时序对齐与数据一致性;同时,真实世界的数据收集成本高昂,需设计高效的演示采集流程以覆盖任务的自然变异性,并处理原始数据中的噪声与异常,最终形成结构化、可扩展的数据集格式以供算法训练与评估。
常用场景
经典使用场景
在机器人操作学习领域,robocasa_target_StirVegetables数据集为模拟厨房环境中的精细操作任务提供了丰富的多模态数据。该数据集通过PandaOmron机器人执行搅拌蔬菜这一具体动作,记录了包括手眼相机视角、全局视角图像、机器人状态及动作序列在内的完整交互轨迹。这些数据使得研究人员能够深入探究机器人如何从视觉输入中理解动态场景,并生成连续、精确的控制指令,从而在仿真环境中训练和验证模仿学习或强化学习算法。
解决学术问题
该数据集有效应对了机器人学中关于复杂长时程任务学习的核心挑战。它通过提供大量结构化的演示数据,帮助解决模仿学习中分布偏移和数据效率低下的问题,同时为离线强化学习算法提供了高质量的轨迹样本。其意义在于推动了具身智能研究从简单抓取向包含时序逻辑的复合操作任务拓展,为构建能够适应非结构化环境的通用机器人系统奠定了数据基础。
衍生相关工作
基于此类高质量机器人操作数据集,学术界衍生出一系列经典研究工作。例如,利用此类多模态序列数据训练的视频预测模型,能够提升机器人对动作后果的预见能力;基于Transformer架构的决策模型,则擅长从长序列演示中提取策略。这些工作共同推动了机器人操作技能从专家演示中进行高效学习和泛化的能力,形成了“数据驱动机器人学”这一重要研究方向。
以上内容由遇见数据集搜集并总结生成



