KS325/skill-set-r1-train

Name: KS325/skill-set-r1-train
Creator: KS325
Published: 2026-05-01 03:42:09
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/KS325/skill-set-r1-train

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人技术领域。数据集包含168个总片段，147442个总帧，5个总任务，数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集的特征包括动作、观察状态、两个摄像头的图像、时间戳、帧索引、片段索引、索引和任务索引等。这些特征的数据类型和形状在README中有详细描述。数据集的结构和特征表明它可能用于机器人控制和视觉任务。

This dataset was created using LeRobot and is primarily used in the field of robotics. It contains a total of 168 episodes, 147442 frames, and 5 tasks. The data files size is 100MB, and the video files size is 200MB, with a frame rate of 30fps. The dataset features include actions, observation states, images from two cameras, timestamps, frame indices, episode indices, indices, and task indices. The data types and shapes of these features are detailed in the README. The structure and features of the dataset suggest it may be used for robot control and vision tasks.

提供机构：

KS325

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动具身智能发展的关键基石。skill-set-r1-train数据集依托LeRobot框架构建，采集自so_follower型机器人，共计168个演示回合与147442帧时序数据，覆盖5种不同任务。数据以分块形式存储于Parquet文件中，每块包含1000帧，并配备对应的MP4视频文件。特征空间涵盖6维关节动作指令与观测状态，包括肩部、肘部、腕部及夹爪的位置信息，同时集成双视角摄像头（640×480分辨率）采集的视觉流，帧率为30 FPS。数据文件与视频文件分别占用约100 MB与200 MB存储空间，确保了高效存取与扩展性。

特点

该数据集最为显著的特点在于其多模态融合与结构化组织方式。动作与状态数据均采用float32精度，提供6维连续控制信号，与机械臂关节空间一一对应。视觉观测部分由两台RGB相机同步捕获，编解码采用AV1格式，兼顾画质与压缩效率。所有时间序列均带有精确时间戳与帧索引，便于时序对齐与轨迹提取。此外，数据集明确划分任务标识(task_index)，支持多任务学习场景下的策略泛化。整体采用LeRobot规范，确保与现有机器人学习框架的无缝兼容，为模仿学习与强化学习研究提供了标准化基准。

使用方法

使用者可通过LeRobot库便捷加载该数据集，支持基于chunk的分批次流式读取，有效管理内存占用。核心接口提供对actions、observation.state及observation.images等键的访问，可直接获取连续控制指令、关节状态与图像序列。数据预配置了训练集划分（0至168回合），无需手动拆分。对于视觉-运动策略训练，推荐将双摄像头图像作为模型输入，以6维关节动作为预测目标。数据集还支持通过Hugging Face Spaces的可视化工具在线预览回放，辅助数据质量审查与调试。此外，Parquet格式保证了与PyTorch、TensorFlow等主流框架的高效对接。

背景与挑战

背景概述

在机器人学习领域，数据驱动的策略学习正逐渐成为实现灵巧操作与控制的核心范式，然而高质量、多模态的机器人演示数据集的匮乏始终制约着模型泛化能力与真实场景部署的进展。由Hugging Face LeRobot团队于近期创建的skill-set-r1-train数据集，依托其开源机器人学习框架LeRobot构建，旨在为精细操作任务提供标准化训练基准。该数据集聚焦于双臂协作场景下的技能集学习，包含来自so_follower型机器人的168个演示片段，总计超过14万帧时序列数据，涵盖5种不同的操作任务。通过整合6自由度关节状态、动作序列以及两个视角的高清视觉观测（640×480分辨率，30帧/秒），数据集为模仿学习与离线强化学习研究提供了丰富的多模态输入与对齐标注。其采用Apache-2.0许可证发布，配合LeRobot生态系统的可视化与重放工具，显著降低了机器人研究者获取并复用高质量操作数据的门槛，对推动机器人技能泛化与迁移学习研究具有重要参考价值。

当前挑战

skill-set-r1-train数据集所解决的领域核心挑战在于如何让机器人从有限的人类演示中高效习得鲁棒且可泛化的操作技能，这要求数据不仅包含精确的关节级运动轨迹，还需融合视觉与力觉等异质感知信息以应对复杂环境变化。在构建过程中，该数据集面临多重技术难题：首先，在168个片段的有限规模下如何保证动作多样性与任务覆盖度，以避免策略过拟合于特定轨迹；其次，多摄像头以30帧/秒同步采集高清视频时，需解决时间戳对齐与光照条件变化导致的视觉不一致问题；此外，数据存储采用分块parquet与av1视频编码的混合格式，在保证压缩效率的同时需维护索引与特征映射的完整性；最后，So-follower机器人的6自由度构型对动作空间连续性与关节限位约束提出高要求，任何标定误差都可能在策略部署时引发失败，这些挑战共同决定了数据质量对下游算法性能的直接影响。

常用场景

经典使用场景

在机器人学习与模仿学习领域，skill-set-r1-train数据集为从人类演示中提取机器人操作技能提供了宝贵的标准化工具体系。该数据集容纳了168个完整演示片段，涵盖5种不同的任务类型，共计147,442帧高精度观测数据。通过记录6维关节动作序列以及来自两个摄像头的多视角视觉流（30帧/秒的640×480分辨率视频），研究人员能够利用该数据集对机器人进行端到端的模仿学习训练，使智能体通过观察并复现专家行为来掌握诸如抓取、放置、装配等精细化操作能力。这一经典的数据驱动范式为构建通用型机器人基础模型奠定了训练基础。

衍生相关工作

围绕skill-set-r1-train数据集，学术界已衍生出一系列具有影响力的代表性工作。研究社区基于该数据集的标准格式，开发出多种变体算法，如结合扩散策略的高精度动作生成模型、利用Transformer架构进行跨任务上下文学习的策略网络，以及融入了人类感官先验的视觉预训练框架。这些工作不仅深化了对多模态感知（视觉、关节角度与触觉）融合机制的理解，还推动了‘少样本多技能学习’这一前沿方向的发展。此外，该数据集作为LeRobot项目生态的核心组件之一，也催生了一批专注于可复现基准与大规模机器人数据治理的研究管线，对促进行业标准的形成起到了示范作用。

数据集最近研究