robocasa_20260430T030150Z_full_run_spicy_marinade

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/DorianAtSchool/robocasa_20260430T030150Z_full_run_spicy_marinade

下载链接

链接失效反馈

官方服务：

资源简介：

RoboCasa Trajectories Single 数据集是一个用于机器人轨迹记录的数据集，每个事件对应一行数据，包含事件级别的JSON数据（如adapted_trajectory、original_trajectory和execution_metadata），以及步骤级别的序列数据（如step_index、tool_name、tool_args、robot_idx和success）。此外，数据集还包括多个图像列，如room_view、top_view、map、agentview_center、agentview_left、agentview_right和wrist。数据集总共有3000行，对应3000个事件，平均每个事件有53.4个步骤，适用于SpicyMarinade任务。数据可通过HuggingFace的load_dataset函数加载。相机渲染以JPEG格式存储，地图以PNG格式存储，但MP4视频和调试用的初始相机帧不包含在内。

The RoboCasa Trajectories Single dataset contains one row of data per RoboCasa trajectory/event. Each row represents a trajectory/event, with event-level JSON data stored inline, including adapted_trajectory, original_trajectory, and execution_metadata. Step-level data is stored in aligned sequence columns, including step_index, tool_name, tool_args, robot_idx, and success. Additionally, the dataset includes multiple image columns such as room_view, top_view, map, agentview_center, agentview_left, agentview_right, and wrist. The dataset has a total of 3000 rows, corresponding to 3000 events, with an average of 53.4 steps per event. It is suitable for SpicyMarinade tasks. Data loading can be achieved via HuggingFaces load_dataset function. Note that camera renderings are stored in JPEG format, maps in PNG format, and MP4 videos and initial camera frames for debugging are not included in the dataset.

创建时间：

2026-05-08

原始信息汇总

根据您提供的数据集详情页面地址和README文件内容，我为您总结了以下关键信息：

RoboCasa Trajectories Single 数据集概述

基本信息

数据集名称：RoboCasa Trajectories Single
来源地址：https://huggingface.co/datasets/DorianAtSchool/robocasa_20260430T030150Z_full_run_spicy_marinade
数据集行数：3000
轨迹/情节数量：3000
任务类型：SpicyMarinade
每情节平均步数：53.4

数据结构

数据集每一行代表一个轨迹/情节，包含以下内容：

情节级数据（内联JSON存储）

adapted_trajectory：调整后的轨迹
original_trajectory：原始轨迹
execution_metadata：执行元数据

步骤级数据（对齐序列列）

step_index：步骤索引
tool_name：工具名称
tool_args：工具参数
robot_idx：机器人索引
success：是否成功

图像列（内联展示）

room_view：房间视图
top_view：俯视图
map：地图（PNG格式）
agentview_center：智能体中心视角
agentview_left：智能体左侧视角
agentview_right：智能体右侧视角
wrist：手腕视角

加载方式

使用以下Python代码加载数据集：

python from datasets import load_dataset

ds = load_dataset("DorianAtSchool/robocasa_20260430T030150Z_full_run_spicy_marinade", split="train")

注意事项

相机渲染图像存储为JPEG格式，地图保留为PNG格式
数据集中不包含MP4视频
调试阶段的initial和pre_initial_state相机帧不包含在数据集中
行粒度：轨迹级别
该布局在load_dataset()下可完整加载，但嵌套的序列列在Hugging Face表格查看器中不太友好

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量轨迹数据的收集与结构化对于训练智能体至关重要。该数据集基于RoboCasa模拟环境构建，专注于‘SpicyMarinade’单一任务，共采集3000条完整轨迹，每条轨迹对应一次独立的操作回合。数据以HuggingFace Datasets格式存储，每条记录代表一条轨迹，终端层级信息以JSON字段内联保存，包括适配轨迹、原始轨迹及执行元数据，而步骤级数据则通过对齐的序列列形式呈现，涵盖步骤索引、工具名称、工具参数、机器人索引及成功标志，便于按时间顺序访问。

特点

该数据集的核心优势在于其多模态视觉信息与结构化轨迹的深度融合。图像数据如房间视图、俯视图、地图、多角度智能体视图及腕部摄像头画面均以内联方式存储，无需额外解压即可直接查阅，其中摄像头渲染采用JPEG格式以优化存储，地图则保留PNG格式确保细节。每条轨迹平均包含53.4个步骤，这一精细粒度使得研究者能够深入分析动作序列与状态转换，而3000条轨迹的规模则为稳健全局建模提供了坚实基础。

使用方法

研究者可通过HuggingFace Datasets库便捷加载数据，执行`load_dataset("DorianAtSchool/robocasa_20260430T030150Z_full_run_spicy_marinade", split="train")`即可获取训练集。加载后，数据集以表格形式呈现，图像列直接可预览，但嵌套序列列（如步骤数据）在HuggingFace表格视图中可能不如扁平结构直观，建议通过编程方式迭代访问。值得注意的是，数据集中不包含MP4视频及调试用初始状态帧，因此使用时应针对轨迹级别的动作规划与视觉反馈学习任务设计流水线。

背景与挑战

背景概述

机器人操作技能的学习与泛化长期以来依赖于高质量的示教数据。RoboCasa Trajectories Single数据集由DorianAtSchool机构于2026年4月创建，聚焦于烹饪场景中的复杂操作任务，具体以SpicyMarinade任务为代表。该数据集包含3000条完整轨迹，平均每条轨迹包含53.4个决策步骤，为多步操作策略学习提供了丰富的时序样本。通过采集多视角视觉信息与工具使用序列，该数据集为研究细粒度操作技能迁移与上下文感知决策奠定了坚实基础，推动机器人从简单抓取向精细化、多阶段任务演进。

当前挑战

该数据集所解决的领域核心挑战在于，烹饪操作涉及长时序动作编排、工具依赖及环境动态变化，传统数据集难以提供包含完整视觉反馈与动作序列的细粒度轨迹。构建过程中主要挑战包括：多模态数据（视觉、状态、动作）的同步采集与对齐精度要求极高；轨迹长度差异大（平均53.4步）导致序列建模面临变长处理难题；相机渲染采用JPEG压缩以控制存储，但可能引入视觉特征退化；多视角图像（如agentview系列）的冗余与互补信息需有效权衡。此外，数据仅包含单一任务（SpicyMarinade），限制了跨任务泛化能力的验证。

常用场景

经典使用场景

在机器人学习与具身智能研究领域，RoboCasa Trajectories Single数据集为模仿学习与行为克隆任务提供了关键支撑。该数据集聚焦于'SpicyMarinade'这一具体烹饪操作任务，包含3000条完整的机器人轨迹数据，每条轨迹平均包含53.4个步骤。研究者可利用此数据集训练机器人从视觉观测中学习精细的烹饪操作策略，将高维传感器输入（如多视角相机图像、俯视图、房间全景图）映射为具体的机械臂动作序列。其典型应用流程为：以agentview_center、wrist等摄像头画面作为状态输入，以tool_name、tool_args等步骤级标签作为动作指导，构建端到端的策略网络。该数据集凭借其标准化、分步式的结构，成为验证模仿学习算法在长时序、多步骤任务中泛化能力的基准平台。

衍生相关工作

该数据集的使用催生了多项具有启发性的相关研究工作。在策略学习层面，研究者利用轨迹级数据对比了行为克隆与逆强化学习在长序列任务中的表现差异，推动了决策树与循环神经网络在动作预测中的融合。在多模态融合领域，该数据集的多视角图像与动作序列对联结构成了视觉-语言-动作联合预训练的试验场，激发了对跨模态表征对齐的深入探索。此外，数据集中的execution_metadata字段被部分工作用于构建执行故障检测与自动重试机制，开创了条件式轨迹生成的新方向。在仿真到现实的迁移中，该数据集与RoboCasa仿真平台结合，成为域随机化与域适应算法验证的常见基准，进一步促进了从模拟数据到实体机器人部署的平滑过渡。

数据集最近研究