L7-Robotics/so101_2cam_red_cube_v1_20fps
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/L7-Robotics/so101_2cam_red_cube_v1_20fps
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用LeRobot创建,包含机器人动作、观察状态和图像等特征。数据集结构包括数据文件、视频文件、特征等详细信息,主要用于机器人领域。具体特征包括动作(6个浮点数)、观察状态(6个浮点数)、顶部和后方图像(480x640x3的视频)、时间戳、帧索引、剧集索引等。数据集总共有30个剧集,11912帧,帧率为20fps。
This dataset was created using LeRobot and contains features such as robot actions, observation states, and images. The dataset structure includes detailed information about data files, video files, features, etc., and is primarily used in the robotics field. Specific features include actions (6 floats), observation states (6 floats), top and rear images (480x640x3 videos), timestamps, frame indices, episode indices, etc. The dataset consists of 30 episodes, 11912 frames, with a frame rate of 20fps.
提供机构:
L7-Robotics
搜集汇总
数据集介绍

构建方式
该数据集依托LeRobot框架构建,专为机器人操作任务设计。数据收集过程中,采用了so_follower型机器人执行单一任务,即抓取红色立方体。通过双视角摄像头,即顶部和后部摄像头,以每秒20帧的速率同步记录视觉信息与机器人状态。数据集包含30个完整的演示回合,共计11912帧,所有数据均以Parquet格式高效存储,而视频则采用AV1编码压缩,确保了视觉信息的质量与存储效率的平衡。
特点
数据集的核心特色在于其多模态融合与精细化的运动学标注。每个数据样本不仅包含高分辨率(480×640)的双目视觉图像,还精确记录了机器人6个关节(包括肩部、肘部、腕部及夹爪)的位置与动作指令。此外,数据集严格对齐了时间戳、帧索引及回合索引,便于研究者进行时序建模与行为克隆研究。所有样本均划分为训练集,无测试集分割,适合用于少样本模仿学习场景。
使用方法
使用该数据集时,可通过LeRobot库直接加载,无需手动处理数据格式。研究者可利用提供的action和observation.state字段训练机器人策略网络,并借助observation.images.top与observation.images.rear两路视频输入进行视觉引导的决策模型开发。数据集支持按回合索引或帧索引进行随机采样,便于构建训练批次。此外,预定义的6自由度动作空间与连续化的状态表征,使该数据集可直接适配于主流强化学习与模仿学习算法框架。
背景与挑战
背景概述
该数据集由L7-Robotics团队基于LeRobot框架创建,专注于机器人操作领域的模仿学习研究。数据集命名为so101_2cam_red_cube_v1_20fps,采集了30个演示片段,共计11912帧,以20帧/秒的速率记录。核心研究问题在于利用双摄像头(顶部和后部)视觉输入与六自由度机器人本体状态(肩部旋转、肘部弯曲、腕部屈伸及夹爪位置),实现从视觉观测到动作策略的端到端映射。该数据集为训练机器人对红色立方体进行精准操作任务提供了标准化基准,推动了具身智能中少样本学习与行为克隆技术的发展,并在机器人开源社区中具备显著影响力。
当前挑战
在领域问题层面,数据集聚焦于解决机器人从视觉感知到精细动作控制的模仿学习挑战,即如何从高维图像流和低维状态序列中提取鲁棒的动作表征,并泛化至未见的环境变化。构建过程中,关键挑战包括:多视角摄像头的同步校准与光照一致性维持,确保视觉特征的可重复性;高频数据流(20fps)下动作标签与观测时序的精确对齐;以及有限演示数据(30个片段)下策略对机器人运动学噪声的容忍度提升。此外,视频编码采用高效AV1格式虽压缩了存储开销,但解码实时性与数据完整性之间的权衡亦构成技术难点。
常用场景
经典使用场景
在机器人学习与操作领域,so101_2cam_red_cube_v1_20fps数据集成为了模仿学习与行为克隆研究的典范资源。该数据集聚焦于单一明确任务——机械臂抓取红色立方体,并通过两台摄像机从顶部与后方捕捉完整视觉信息,结合六自由度关节角度与夹爪状态的高频记录,为构建端到端的机器人操控策略提供了高质量的训练样本。科研人员通常利用其20帧每秒的时序连续性,开展从视觉观测到动作映射的模型训练,验证算法在精细操控任务中的泛化能力与复现精度。
解决学术问题
该数据集有力回应了机器人操作研究中长期存在的两大挑战:一是如何高效采集包含多模态感知信息的示范数据,二是如何在有限任务范围内评估算法对动作序列的复现精度。通过提供标准化且结构完整的因果时序记录,它帮助学者量化了视觉反馈与动作执行之间的耦合关系,进而推动了基于Transformer、扩散模型等架构在低维动作空间中的适应性研究。这些成果不仅深化了对运动规划内在机理的理解,也为后续复杂场景下的技能迁移奠定了方法论基础。
衍生相关工作
基于该数据集,衍生出诸多具有深远影响的经典研究工作。其中,利用对比学习与行为克隆相结合的方法,研究者提出了多视角融合策略,显著提升了机器人对新物体姿态的适应能力。另有工作引入时序扩散模型,将数据集的20帧每秒采样率作为扩散过程中的时间步约束,实现了零样本条件下的动作平滑生成。此外,该数据集还被用作机器人基础模型(如RT-2、Octo)的微调基准,验证了大规模预训练视觉-语言-动作模型在细粒度操控任务中的可迁移性,极大拓展了低资源场景下机器人技能习得的边界。
以上内容由遇见数据集搜集并总结生成



