KS325/skill-set-r1-val
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/KS325/skill-set-r1-val
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个机器人相关的多模态数据集,包含48个episodes,41139帧数据。数据集主要记录了机械臂(so_follower类型)的动作和观察状态,包括6个关节的位置信息(shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos),以及两个摄像头(camera1和camera2)拍摄的480x640分辨率视频(30fps)。数据集还包含时间戳、帧索引、episode索引等信息。数据以parquet格式存储,视频以mp4格式存储。
This dataset is a robotics-related multimodal dataset containing 48 episodes and 41139 frames. The dataset primarily records the actions and observation states of a robotic arm (so_follower type), including position information for 6 joints (shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos), as well as videos (30fps) captured by two cameras (camera1 and camera2) with a resolution of 480x640. The dataset also includes timestamps, frame indices, episode indices, and other information. The data is stored in parquet format, and videos are stored in mp4 format.
提供机构:
KS325
搜集汇总
数据集介绍

构建方式
skill-set-r1-val数据集基于LeRobot框架构建,专为机器人操作任务设计。其数据以稠密时间序列形式存储,包含48个演示回合(episodes),共计41139帧图像,覆盖5种不同的操作任务。原始数据通过机械臂so_follower采集,被分割为大小为1000帧的数据块(chunks),并以Parquet格式存储关节动作和状态信息,视频流则采用AV1编码的MP4文件保存。数据集信息通过meta/info.json文件进行结构化描述,确保了数据加载的标准化与可复现性。
特点
该数据集的核心特色在于其多模态时间序列结构,同时记录了6维关节动作指令(action)与对应的机器人观察状态(observation.state),并配备两个视角的摄像头视频流(camera1与camera2),图像分辨率为480×640像素,帧率为30fps。视频流以高效AV1编码压缩,兼顾了存储效率与视觉保真度。数据集还提供了精确的时间戳、帧索引、回合索引和任务索引,为模仿学习与离线强化学习研究提供了完整的时空对齐信息。
使用方法
用户可通过LeRobot库轻松加载该数据集,使用时需指定配置名'default',并利用data/*/*.parquet模式读取数据文件。为便于快速可视化,Hugging Face Spaces提供了一个交互式可视化工具,可直接在浏览器中浏览演示视频与状态序列。研究人员可将动作与观测数据直接输入策略学习模型,或利用任务索引进行多任务学习。数据集遵循Apache-2.0开源协议,鼓励在机器人操作研究领域内自由使用与二次开发。
背景与挑战
背景概述
skill-set-r1-val数据集是一个面向机器人操作技能学习的验证集,由KS325团队基于LeRobot框架创建,发布于2024年。该数据集聚焦于机器人从人类演示中学习精细化操作技能的核心研究问题,包含48个演示片段、超过4万帧图像和5种不同任务,覆盖了从关节运动到夹爪控制的完整动作空间。数据通过6自由度跟随机器人(so_follower)采集,并采用双摄像头视觉输入(480x640分辨率,30fps帧率)为机器人学习提供丰富的感知信息。作为机器人领域少有的结构化验证数据集,它在技能泛化、模仿学习等子领域具有重要参考价值。
当前挑战
该数据集旨在解决机器人技能学习中的领域问题挑战,主要包括:如何从有限的人类演示中泛化到新场景,以及如何应对动作序列中的长时依赖与噪声干扰。同时,数据集自身构建面临多重挑战:1)采集多任务、多视角的高质量演示数据需要精细的遥操作控制与大量人工参与;2)确保动作与观测数据在时序上严格对齐并去除传感器误差;3)在仅有48个片段情况下,需平衡任务多样性与每个任务内的演示数量,以避免模型过拟合;4) 采用AV1视频编码格式虽压缩了存储空间,但增加了实时解码的计算开销,影响训练效率。
常用场景
经典使用场景
在机器人学习与灵巧操作领域,skill-set-r1-val数据集作为一项精心构建的基准资源,主要用于评估和微调模仿学习与行为克隆算法。该数据集采集自so_follower机器人平台,包含48段完整轨迹、超过4万帧的高频数据,覆盖5种不同的操作任务。研究者通常利用其提供的多模态观测信息——包括双视角视觉图像与六自由度关节状态序列——来训练机器人从示范中复现精细动作。典型的使用流程涉及将连续的轨迹切分为可学习的子技能单元,并借助LeRobot框架实现数据加载与模型训练,从而验证模型在有限的示范数据下对策略泛化能力的捕获效果。
实际应用
在实际工业与生活场景中,该数据集衍生的策略可直接部署于类的单臂协作机器人,用于实现诸如精密零件抓取、柔性物料装配或实验室自动化操作等任务。借助LeRobot生态的支持,开发者能够将预训练模型迁移至真实机器人平台,通过少量调整即可完成特定工位的技能复现。例如,在电子元器件的微装配产线上,机器人可以依据数据集中学得的关节协调模式,结合实时视觉反馈执行高重复度的插拔动作,从而降低人工编程成本并提升作业一致性。此外,其在远程操控技能回放中也展现出价值,能够将人类示教的复杂动作转化为可复现的机器人程序。
衍生相关工作
围绕skill-set-r1-val数据集,已衍生出一系列值得关注的算法研究与基准基准工作。基于LeRobot框架的兴起,该数据集常与扩散策略、隐式行为克隆和基于Transformer的决策预训练模型相结合,成为验证新型架构在有限示范下学习效率的试金石。部分工作通过在该数据集上对比不同动作空间表征对策略平滑性的影响,揭示了离散化与连续控制之间的权衡;另一些研究则将其作为评估视觉-动作联合嵌入质量的离评测台,推动了多模态融合在机器人技能获取中的理论发展。未来,该数据集有望催生更多关于任务组合与动态环境适应的创新方法,持续服务于从实验室到实地部署的全链路研究链条。
以上内容由遇见数据集搜集并总结生成



