ankile/square-d1-dagger-sobol-v1-hard-r1

Name: ankile/square-d1-dagger-sobol-v1-hard-r1
Creator: ankile
Published: 2026-05-01 03:39:55
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ankile/square-d1-dagger-sobol-v1-hard-r1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，专注于机器人技术领域，特别是panda机器人类型。数据集包含200个episodes，总计46388帧，涉及1个任务。数据以parquet文件格式存储，包含多种观察特征（如末端执行器状态、环境状态、图像等）、动作、奖励、完成标志等。视频数据以20fps的帧率记录，分辨率为256x256。数据集的结构详细描述了各种特征的数据类型、形状和名称，适用于机器人控制和学习任务的研究。

This dataset was created using LeRobot and focuses on the robotics domain, specifically the panda robot type. It contains 200 episodes, totaling 46,388 frames, and involves 1 task. The data is stored in parquet files and includes various observation features (such as end-effector state, environment state, images, etc.), actions, rewards, completion flags, and more. Video data is recorded at 20fps with a resolution of 256x256. The datasets structure details the data types, shapes, and names of various features, making it suitable for research in robot control and learning tasks.

提供机构：

ankile

搜集汇总

数据集介绍

构建方式

在机器人学习领域，通过模仿学习和强化学习相结合的方法生成高质量数据集是提升算法性能的关键。square-d1-dagger-sobol-v1-hard-r1数据集正是基于LeRobot框架构建，采用了数据集聚合（DAgger）策略与Sobol序列采样技术。数据采集利用Franka Emika Panda机械臂，在模拟环境中执行螺母螺栓装配任务，共收集200个回合、总计46388帧观测数据。每帧包含9维末端执行器状态、17维环境状态（如螺母与螺栓相对位姿）、7维动作指令（包括末端执行器增量位姿和夹爪动作），以及标注的成功标志、干预标记和奖励值。数据以Parquet格式存储为多个文件块，并同步保存两个视角（agentview和robot0_eye_in_hand）的256×256像素视频流，帧率为20FPS。

特点

该数据集的核心特点在于其结合了困难模式（hard-r1）的挑战性场景与基于Sobol序列的确定性采样策略，确保了数据分布的多样性与覆盖度。全部200个回合均用于训练，无显式验证或测试拆分，契合离线强化学习或行为克隆对一致数据分布的需求。特征空间设计精细，包含末端执行器位置、四元数、夹爪开度等运动学参数，以及任务关键的环境相对位姿，为学习精细操作策略提供了完备的感知信息。视频观测采用H.264编码的彩色图像，分辨率适中，兼顾了视觉细节与存储效率。此外，数据中是否包含人类干预标记（intervention_flag）可用于区分自主探索与引导轨迹，便于分析策略性能。

使用方法

使用本数据集需基于LeRobot库加载，通过指定默认配置即可自动读取所有Parquet数据文件及关联视频。研究者可调用LeRobot的dataset API，以迭代器方式访问每一帧的完整数据：包括多模态观测（状态向量与图像）、动作指令、奖励值及回合元信息。由于数据按回合存储，便于构建序列化的模仿学习训练流程。建议将数据集用于离线策略优化、逆动态模型学习或基于视觉的运动规划任务。加载时需注意视频解码依赖H.264编解码器，且数据路径遵循'data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet'的模板结构。所有数据不包含标注的分割要求，直接使用全部200个回合进行模型训练与评估。

背景与挑战

背景概述

square-d1-dagger-sobol-v1-hard-r1数据集构建于机器人模仿学习领域，由Hugging Face LeRobot团队基于Franka Emika Panda机械臂平台创建，旨在通过200个专家演示片段（总计46,388帧）为精密装配任务（如螺母-螺栓对齐）提供高质量的轨迹数据。该数据集的核心研究问题在于如何利用少量专家数据驱动机器人学习复杂操作技能，其采用Sobol序列采样与DAgger算法策略，模拟了具有挑战性的初始状态分布。作为LeRobot生态的重要组件，该数据集为验证数据驱动型机器人学习算法提供了标准化基准，其精心设计的特征空间（包括末端执行器姿态、环境状态及多视角视觉观测）对后续模仿学习与强化学习研究具有重要参考价值。

当前挑战

该数据集主要应对的领域挑战是机器人精细操作中的样本效率与泛化性问题，即如何从有限的专家演示中提取可迁移的操作策略，尤其在初始状态分布高度不确定（如螺母与螺栓的相对位姿随机变化）的刚性装配场景下。构建过程中面临的困难包括：通过Sobol序列生成符合物理约束的多样化初始条件，确保示范轨迹在对抗性初始状态（hard-r1）下的完整性；平衡DAgger算法中专家干预与自主学习策略的融合；同时处理7自由度机械臂的连续动作空间与多模态观测数据（包含高维图像与状态向量）的同步与降噪，最终在仅100MB参数数据规模下实现高保真度行为克隆。

常用场景

经典使用场景

在机器人学习与操作领域，该数据集专为精密装配任务中的模仿学习而设计，其核心场景聚焦于引导机械臂完成螺母与螺栓的精准对接操作。通过记录Franka Emika Panda机械臂在200条轨迹中的状态、视觉图像及动作指令，数据集提供了高保真的多模态数据，包括末端执行器位姿、环境物体坐标及双视角视频流。研究者可基于此训练策略模型，使机器人从人类示教中习得复杂的接触式装配技能，尤其适用于需要亚毫米级精度控制的刚性物体组装任务。数据集的难度进阶设定（hard）与随机化种子策略（sobol）保证了任务挑战的多样性与可复现性，为验证模仿学习算法在真实物理约束下的泛化能力提供了标准化测试平台。

实际应用

在工业自动化与智能制造领域，该数据集可部署于精密电子元件组装、汽车零部件锁付及医疗器械安装等工序中。通过迁移学习架构，企业可借助预训练模型快速适配不同型号的夹具与工件，减少传统示教编程中耗时的人工调整环节。在服务机器人场景中，基于该数据集训练的装配模型可辅助完成家庭中的螺丝拧紧、家具拼接等日常维护任务。更广泛地，该数据集为远程操作系统的低延迟反馈提供了算法基础——当操作者通过遥操作界面发出指令时，学习系统能自主补全微观动作轨迹，从而在通信受限的极端环境（如太空站、核设施）中实现半自主精密作业。数据集开源属性与标准化格式（LeRobot规范）进一步降低了产业落地的技术门槛。

衍生相关工作

该数据集衍生出多项推动机器人技能学习边界的核心工作。其中，基于该数据集的模仿学习研究揭示了行为克隆与扩散策略在装配任务中的性能差异，催生了结合几何约束的动作分块算法。另一些工作则聚焦于数据效率优化，通过对比元学习框架在此数据上训练少样本适应模型，仅在5条示范轨迹下即达到85%的装配成功率。此外，该数据集被用作离线强化学习中价值函数外推误差分析的基准，衍生了保守Q学习与隐式Q学习的改进变体，有效抑制了分布外动作的过估计问题。在跨任务泛化方向上，有学者结合该数据集与多任务Transformer架构，验证了基于语言条件指令的元技能组合能力，为通用机器人操作智能体的构建提供了关键实验证据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集