sentinel_dataset_v10_delta

Hugging Face2026-04-05 更新2026-04-06 收录

下载链接：

https://huggingface.co/datasets/grboguz/sentinel_dataset_v10_delta

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专为机器人学相关任务设计。数据集采用Apache-2.0许可证，包含2个完整的情节，总计552帧，1个任务，4个视频和1个数据块。数据以Parquet格式存储，视频以AV1编码的MP4格式存储，帧率为15fps。数据集结构包括多个观察特征，如主摄像头和腕部摄像头的视频数据（256x256分辨率，3通道），机器人状态（3维浮点数），以及动作数据（4维浮点数，包括夹持器状态）。此外，还包含时间戳、帧索引、情节索引等辅助信息。该数据集适用于机器人控制、行为克隆等研究领域。

创建时间：

2026-04-05

原始信息汇总

数据集概述

基本信息

数据集名称: grboguz/sentinel_dataset_v10_delta
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总情节数: 2
总帧数: 552
总任务数: 1
总视频数: 4
数据块数: 1
数据块大小: 1000
帧率: 15 fps
数据分割: 训练集包含所有情节 (索引 0:2)
数据文件路径模式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径模式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

数据特征

观测特征

observation.image (视频):
- 形状: [3, 256, 256]
- 维度名称: ["channels", "height", "width"]
- 视频信息:
  - 高度: 256
  - 宽度: 256
  - 编码: av1
  - 像素格式: yuv420p
  - 非深度图
  - 帧率: 15 fps
  - 通道数: 3
  - 无音频
observation.wrist_image (视频):
- 形状: [3, 256, 256]
- 维度名称: ["channels", "height", "width"]
- 视频信息:
  - 高度: 256
  - 宽度: 256
  - 编码: av1
  - 像素格式: yuv420p
  - 非深度图
  - 帧率: 15 fps
  - 通道数: 3
  - 无音频
observation.state (浮点32):
- 形状: [3]
- 维度名称: ["x", "y", "z"]

动作特征

action (浮点32):
- 形状: [4]
- 维度名称: ["dx", "dy", "dz", "gripper"]

元数据特征

timestamp (浮点32): 形状 [1]
frame_index (整型64): 形状 [1]
episode_index (整型64): 形状 [1]
index (整型64): 形状 [1]
task_index (整型64): 形状 [1]

技术信息

代码库版本: v2.1
机器人类型: sentinel_v2

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX 引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的构建往往依赖于真实世界的交互记录。sentinel_dataset_v10_delta 数据集借助 LeRobot 平台进行采集与整合，其核心数据来源于 Sentinel V2 型机器人在执行任务过程中产生的多模态时序记录。该数据集以分块形式组织，将连续的操作片段存储为 Parquet 格式文件，并同步保存了对应的视频流。每个数据块包含完整的 episode 序列，涵盖了从图像观测、机械臂状态到动作指令的同步信息，帧率稳定在 15 fps，确保了时序数据的一致性。

特点

该数据集在机器人模仿学习与强化学习研究中展现出显著特点。其观测空间包含双视角视觉输入，即全局场景图像与腕部摄像头图像，两者均以 256x256 分辨率的三通道视频形式提供，编码格式统一为 AV1。动作空间则定义为四维连续向量，对应机械臂末端执行器的位移与夹爪控制。数据集规模虽小，但结构清晰，提供了完整的 episode 索引、时间戳及任务标签，便于研究者进行轨迹级别的分析与建模。

使用方法

使用该数据集时，研究者可通过 LeRobot 库或直接读取 Parquet 文件加载数据。数据已预分割为训练集，包含两个完整 episode 共 552 帧。每帧数据关联了图像观测、状态向量、动作指令及元数据索引，支持端到端的策略学习或行为克隆模型训练。视频文件与特征数据路径按统一模板组织，便于批量读取与对齐。由于数据集采用开放许可，用户可在遵守 Apache 2.0 协议的前提下，将其用于机器人控制算法的开发、评估与比较研究。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的真实世界交互数据对于推动模仿学习与强化学习算法的进步至关重要。sentinel_dataset_v10_delta数据集由Hugging Face的LeRobot项目创建，该项目致力于构建开源机器人学习生态系统。该数据集专门针对Sentinel V2型机器人设计，旨在通过记录机器人在执行任务过程中的多模态观察（如视觉图像与状态信息）及对应动作，为核心研究问题——即如何使机器人从人类演示数据中高效学习复杂操作技能——提供实证基础。其结构化存储的交互轨迹为开发与验证端到端的机器人策略模型提供了关键资源，对促进现实场景中机器人自主能力的提升具有潜在影响力。

当前挑战

该数据集致力于解决机器人模仿学习中的核心挑战，即如何从有限的人类演示中泛化出鲁棒且精确的控制策略。具体而言，挑战体现在学习模型需处理高维视觉观察与低维动作空间之间的复杂映射，并克服真实世界环境中存在的动态变化与不确定性。在构建过程中，数据采集面临诸多困难，包括确保多传感器（如腕部摄像头与状态传感器）的时间同步性、维持长周期任务中数据的一致性与完整性，以及高效压缩与存储大量视频流数据以平衡存储成本与访问速度。此外，标注高质量的动作标签并保证不同任务间数据格式的统一性，亦是构建可靠数据集的实质性障碍。

常用场景

经典使用场景

在机器人学习领域，视觉感知与动作控制的结合是提升自主操作能力的关键。sentinel_dataset_v10_delta数据集通过提供多视角图像序列与对应动作轨迹，为模仿学习与强化学习算法的训练提供了丰富资源。研究者可利用该数据集中的图像观测与状态信息，构建端到端的策略模型，使机器人能够从视觉输入中直接推断出精确的动作指令，从而在模拟或真实环境中执行抓取、放置等精细操作任务。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究工作。例如，结合视觉Transformer架构的模仿学习框架，利用其多视角图像序列提升动作预测的准确性；以及基于离线强化学习的策略优化方法，通过数据重放与价值函数学习实现更安全的机器人控制。这些工作不仅扩展了数据集的利用维度，还推动了机器人学习领域在样本高效、多模态融合等方面的理论进展。

数据集最近研究