dive_v1

Hugging Face2025-12-27 更新2025-12-28 收录

下载链接：

https://huggingface.co/datasets/juleseluj/dive_v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人数据集，包含20个episode共8107帧数据。数据集记录了so101_follower型机器人的动作和观测数据，包括6个关节位置（肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置）以及前摄像头图像（480x640分辨率，30fps）。数据以parquet格式存储，并包含相应的视频记录。

创建时间：

2025-12-24

原始信息汇总

数据集概述

基本信息

数据集名称: dive_v1
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

配置名称: default
数据文件格式: Parquet
数据文件路径模式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径模式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

数据统计

总情节数: 20
总帧数: 8107
总任务数: 1
总视频数: 20
总数据块数: 1
数据块大小: 1000
帧率: 30 FPS
数据分割: 训练集 (0:20)

特征字段

action
- 数据类型: float32
- 形状: [6]
- 描述: 机器人关节位置，包括肩部平移、肩部升降、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置。
observation.state
- 数据类型: float32
- 形状: [6]
- 描述: 与action相同的机器人关节位置观测。
observation.images.front
- 数据类型: video
- 形状: [480, 640, 3]
- 视频信息:
  - 高度: 480像素
  - 宽度: 640像素
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30 FPS
  - 通道数: 3
  - 包含音频: false
timestamp
- 数据类型: float32
- 形状: [1]
frame_index
- 数据类型: int64
- 形状: [1]
episode_index
- 数据类型: int64
- 形状: [1]
index
- 数据类型: int64
- 形状: [1]
task_index
- 数据类型: int64
- 形状: [1]

技术信息

代码库版本: v2.1
机器人类型: so101_follower

引用信息

论文: 未提供
BibTeX: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于训练智能体至关重要。dive_v1数据集依托LeRobot框架构建，通过记录so101_follower型机器人在实际环境中的交互过程，采集了20个完整的情节数据。每个情节以30帧每秒的速率同步保存机器人的关节位置状态、前视摄像头图像及时间戳等多模态信息，并以Parquet格式高效存储，确保了数据的时序一致性与结构完整性。

特点

该数据集在机器人学习领域展现出鲜明的技术特色，其核心在于提供了六自由度机械臂的精确动作指令与对应的状态观测，涵盖肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转及夹爪位置等关键关节参数。同时，数据集嵌入了分辨率为480x640的前视RGB视频流，以AV1编码压缩，在保证视觉信息丰富度的前提下优化了存储效率。所有数据均配有精确的时间索引与情节标识，支持端到端的模仿学习与强化学习算法开发。

使用方法

研究者可利用该数据集进行机器人技能学习的实证探索。通过加载Parquet文件，能够便捷地访问每一帧的动作、状态及图像观测，进而构建状态-动作映射模型。数据集已预设训练划分，涵盖全部20个情节，适合用于行为克隆、视觉伺服控制等任务的训练与验证。结合LeRobot工具链，用户可进一步实现数据可视化、轨迹回放及模型评估，推动机器人自主操作能力的算法创新。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的真实世界交互数据对于推动模仿学习与强化学习算法的进步至关重要。dive_v1数据集由LeRobot团队创建，旨在为机器人操作任务提供丰富的多模态交互轨迹。该数据集聚焦于机械臂控制，通过集成关节状态、视觉观测与动作指令，为研究者构建端到端的机器人策略模型奠定了数据基础。其设计体现了当前机器人学研究中对于可泛化、可解释行为建模的迫切需求，有望加速现实场景中自主机器人的部署与应用。

当前挑战

dive_v1数据集致力于解决机器人操作任务中的策略学习挑战，其核心在于如何从高维视觉与状态观测中有效提取特征，并生成精确、稳定的连续动作序列。这一过程面临动作空间的复杂性、视觉观测的噪声干扰以及长时序依赖建模等难题。在构建过程中，数据采集需协调多传感器同步，确保时间戳对齐与数据一致性；同时，大规模真实世界交互数据的标注与清洗成本高昂，且需克服机器人硬件限制与场景多样性不足的瓶颈，以保障数据集的代表性与泛化能力。

常用场景

经典使用场景

在机器人学领域，dive_v1数据集为模仿学习与强化学习算法的训练与评估提供了关键支持。该数据集记录了机器人执行任务过程中的状态观测、动作序列及视觉信息，特别适用于训练端到端的机器人控制策略。研究者可利用其丰富的多模态数据，模拟真实环境下的机器人操作，从而优化决策模型在复杂场景中的泛化能力。

解决学术问题

dive_v1数据集有效应对了机器人控制中数据稀缺与仿真-现实差距的挑战。通过提供真实机器人采集的连续轨迹数据，它助力解决模仿学习中的分布漂移问题，并为离线强化学习算法提供了可靠的基准。该数据集推动了机器人感知与动作联合建模的研究，促进了跨任务知识迁移的理论探索。

衍生相关工作

围绕dive_v1数据集，已衍生出诸多机器人学习领域的经典工作。例如，基于其多模态序列数据的研究推动了时空特征融合网络的创新；同时，该数据集常被用作基准，评估不同模仿学习与离线强化学习算法的性能。这些工作进一步拓展了数据驱动机器人技术在动态环境中的适应性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集