hyzhang01/ur5_3finger

Name: hyzhang01/ur5_3finger
Creator: hyzhang01
Published: 2026-04-30 20:45:44
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/hyzhang01/ur5_3finger

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个关于机器人抓取任务的数据集，使用了UR5机器人。数据集包含30个episodes，共4345帧数据，帧率为50fps。数据特征包括图像（224x224x3）、手腕图像（224x224x3）、状态（7维浮点数）、动作（7维浮点数）、夹爪ID（整数）、时间戳、帧索引、episode索引、索引和任务索引等。数据以parquet格式存储，没有视频数据。

This dataset is related to robotic grasping tasks and utilizes a UR5 robot. It contains 30 episodes with a total of 4345 frames at 50fps. The data features include images (224x224x3), wrist images (224x224x3), state (7-dimensional float), actions (7-dimensional float), gripper ID (integer), timestamp, frame index, episode index, index, and task index. The data is stored in parquet format and does not include video data.

提供机构：

hyzhang01

搜集汇总

数据集介绍

构建方式

本数据集依托于LeRobot开源框架构建，专注于UR5机械臂的三指抓取任务。数据采集过程共记录30个演示回合，涵盖4345帧有效数据。所有样本以50帧每秒的频率录制，并存储为Parquet格式文件。数据集的元信息以JSON格式维护，明确标注了机器人类型、任务总数、数据切分策略等关键参数。训练集与验证集被统一指定为前30个回合，无额外划分。此外，图像数据被处理为224×224像素的RGB格式，并分别记录主视角与腕部视角的视觉信息。

特点

该数据集具备多模态融合特性，同时包含视觉、状态与动作信息。每帧数据记录两个224×224的RGB图像（主相机与腕部相机）、7维机器人关节状态、7维动作指令、夹爪标识符及时间戳等字段。数据集的单任务聚焦特性使其特别适合研究特定抓取行为的复现与泛化。此外，采用50Hz的高采样率确保了动作平滑性的精准刻画，而Parquet格式则保障了大规模数据的高效读写与压缩存储。

使用方法

用户可通过HuggingFace的datasets库加载该Parquet格式数据集，或借助LeRobot框架直接调用指定配置。在训练过程中，推荐将图像序列与动作向量对齐，构建端到端的模仿学习模型。由于数据集已预设30个回合的训练切分，用户可直接使用默认的'train'分片进行模型拟合。对于需要视觉-运动联合建模的场景，建议利用主相机与腕部相机的双视角输入，并结合7维状态向量增强策略的鲁棒性。

背景与挑战

背景概述

该数据集基于LeRobot框架构建，专注于UR5机械臂的三指抓取任务，由相关研究团队于近期创建（具体时间未明确）。核心研究问题在于为机器人学习提供高保真度的示范数据集，以推动模仿学习与策略泛化在工业级机械臂上的应用。数据集包含30个演示片段、总计4345帧有效数据，记录了两路224×224分辨率的视觉图像（主相机与腕部相机）及7维状态与动作信息。其简洁而精炼的结构为端到端机器人操作方法论提供了可复现的基准，尤其适用于视觉-运动联合表征的评估与优化。作为开源社区中UR5平台的标准数据资源，该数据集有望加速机器人抓取领域从仿真到真实环境的迁移研究。

当前挑战

当前数据集面临的核心挑战在于：其一，仅包含单一抓取任务且规模有限（30个片段），难以支撑复杂策略在小样本学习场景外的泛化能力验证；其二，数据采集缺乏底层物理约束信息，如接触力反馈或物体形变参数，限制了高精度柔顺控制任务的拓展；其三，构建过程中未同步录制视频数据，缺失了时序连续性直观验证手段，可能影响行为克隆算法的细节捕捉效果。此外，单夹爪ID配置与未公开的物体多样性，对评估模型在不同几何与材质物体上的适应能力构成限制，亟需更丰富的多任务、多场景数据以弥合模拟至真实的性能鸿沟。

常用场景

经典使用场景

UR5_3finger数据集是面向机器人灵巧抓取与操作任务的高质量数据集合，由UR5协作机械臂搭配三指夹爪采集而成。该数据集收录了30个完整的演示片段，共计4345帧观测数据，涵盖来自机械臂基座与腕部两个视角的224×224像素RGB图像、7维关节状态以及对应的7维动作指令。其最经典的使用场景在于为模仿学习算法提供离线训练素材，研究者可利用该数据训练端到端的视觉运动策略，例如行为克隆或扩散策略，使机器人学会从视觉输入直接映射到关节空间的动作输出，进而完成精细的抓取与物体操控任务。数据以50Hz的高采样频率记录，确保了动作序列的平滑性与时间连贯性，为仿真环境中的策略验证与迁移学习奠定了坚实基础。

解决学术问题

在机器人操作领域的学术研究中，如何实现从人类示教到机器人自主执行的技能迁移始终是一个核心挑战。UR5_3finger数据集专门针对灵巧手与机械臂协同控制这一复杂问题，提供了多视角视觉观测与精准的动作轨迹记录，有效缓解了高维状态空间下的维度灾难与稀疏奖励困境。该数据集使研究者能够系统性地探索条件模仿学习、隐式策略表示以及视觉预训练表征在真实机器人操作中的泛化能力。通过标准化数据格式与离线训练范式，它推动了基于Transformer的时序建模方法在抓取任务中的广泛应用，为理解触觉-视觉融合、模型泛化性与操作鲁棒性之间的关系提供了关键的实验平台，显著加速了从仿真到真实场景的领域迁移研究。

衍生相关工作

UR5_3finger数据集催生了一系列富有启发性的研究工作。在算法层面，研究者将其与扩散模型相结合，推动了RoboDiffusion等动作生成范式的发展，使机器人动作序列的生成更加平滑多样。在表征学习方面，该数据集被用于验证基于对比学习的视觉预训练方法，提升了策略在视觉干扰下的鲁棒性。网络架构上，以该数据为训练资源的Episode Transformer等模型探索了如何在有限示范数据下实现时序依赖的长程动作预测。此外，该数据集还启发了多模态融合研究，通过同步的视觉、关节状态与夹爪压力信号，催生了如Visuo-Tactile Implicit Policy等将触觉信息融入端到端学习的经典工作，为灵巧操作领域开辟了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集