F0R1ST/so101_grasp_dual_cam_asym_v4

Name: F0R1ST/so101_grasp_dual_cam_asym_v4
Creator: F0R1ST
Published: 2026-04-25 10:31:18
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/F0R1ST/so101_grasp_dual_cam_asym_v4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，属于机器人领域。数据集包含30个片段，27583帧，1个任务，数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包含动作、观测状态、图像（前视和侧视）、时间戳、帧索引、片段索引、索引和任务索引等特征。动作和观测状态特征包括肩部平移、肩部提升、肘部弯曲、腕部弯曲、腕部滚动和夹持器的位置。前视图像分辨率为480x640，侧视图像分辨率为120x160。数据集使用Apache-2.0许可证。

This dataset was created by LeRobot and belongs to the robotics field. It contains 30 episodes, 27583 frames, and 1 task, with a data file size of 100MB, video file size of 200MB, and a frame rate of 30fps. The dataset structure includes features such as action, observation state, images (front and side), timestamp, frame index, episode index, index, and task index. The action and observation state features include positions of shoulder pan, shoulder lift, elbow flex, wrist flex, wrist roll, and gripper. The front image resolution is 480x640, and the side image resolution is 120x160. The dataset uses the Apache-2.0 license.

提供机构：

F0R1ST

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，聚焦于机器人抓取任务，采用不对称双摄像头配置进行数据采集。数据集共包含30个演示片段（episodes），总计27,583帧画面，以30帧/秒的帧率录制。数据以parquet格式存储观测状态与动作序列，视频则采用AV1编码的MP4文件保存。数据集按1000帧为一个chunk进行分块组织，便于高效加载与处理。所有数据均遵循Apache-2.0许可证发布，确保可自由用于学术研究与工业应用。

特点

数据集的核心特色在于其不对称双摄像头视觉系统：前置摄像头提供480×640像素的高清画面，侧置摄像头则以120×160像素的低分辨率捕捉辅助视野，两者协同构成多角度观测。动作空间与观测状态均包含6维关节信息（肩部、肘部、腕部及夹爪位置），精确反映机器人运动学特征。数据集仅包含单一抓取任务，聚焦于特定操作技能的学习，同时提供时间戳、帧索引等元数据，便于时间序列分析与轨迹复现。

使用方法

数据集可通过LeRobot库直接加载，使用`load_dataset`函数指定数据集名称即可获取结构化数据。训练时，用户可调用`features`中定义的`action`与`observation.state`字段作为监督信号，将双摄像头图像序列（`observation.images.front`和`observation.images.side`）作为模型输入。数据集已预划分为训练集（全部30个episodes），并支持基于chunk索引的流式读取，适合训练模仿学习与强化学习算法。建议配合HuggingFace的在线可视化工具观察数据集样例，以深入理解数据特性。

背景与挑战

背景概述

在机器人学习领域，模仿学习与示教数据驱动的方法正逐步成为提升机器人操作技能的关键路径。so101_grasp_dual_cam_asym_v4数据集由F0R1ST团队基于LeRobot框架创建，专为机器人抓取任务设计。该数据集采集自so_follower机器人，记录了30个演示回合、超过2.7万帧的高频动作与状态信息，涵盖了六自由度关节位置（肩部、肘部、腕部及夹爪）的精细操控。其核心研究问题在于通过非对称双摄像头配置（前方与侧方），结合低延迟的视觉与状态数据，为机器人学习提供高保真、多模态的示教样本，从而推动机器人从单一控制向复杂环境下的自主抓取能力演进。该数据集的发布为机器人操作学习的研究社区提供了标准化的基准，尤其在小样本模仿学习与迁移学习领域具有重要参考价值。

当前挑战

该数据集所解决的领域挑战主要集中于机器人精细抓取任务中的感知与控制耦合问题。传统运动规划难以适应物体形状、位置和光照的变化，而端到端学习依赖大量高质量示教数据，其采集与标注成本极高。构建过程中，数据集面临多项技术挑战：一是使用双摄像头非对称分辨率（前方480×640，侧方120×160）进行同步录制，需解决不同视角下图像对齐与时间戳同步的精度问题；二是机器人状态向量（6维关节位置）与视觉数据的高频融合，要求数据存储格式（parquet与视频压缩）在不丢失关键动作信息的前提下控制文件体积（总大小约300MB）；三是仅30个演示回合的样本量对数据增强策略与模型泛化能力提出了苛刻要求，需在有限数据中捕捉到丰富的操作模式。

常用场景

经典使用场景

在机器人操作与模仿学习的前沿探索中，so101_grasp_dual_cam_asym_v4数据集为基于视觉的抓取任务提供了结构化且高质量的演示数据。该数据集包含30个完整的抓取演示序列，总帧数超过27000帧，由So_Follower机器人通过遥操作采集而成。其核心特色在于采用双摄像头不对称配置——前视摄像头捕捉640×480像素的高清场景全局，而侧视摄像头以160×120像素的分辨率聚焦于局部深度信息。这种异质视觉模态的设计，为攻克多视角信息融合与空间感知对齐等关键挑战提供了理想的数据基础，尤其适用于训练能够理解复杂环境并执行精准抓取的端到端策略网络。

实际应用

在现实世界的机器人部署场景中，该数据集催生了一系列低延迟、高鲁棒性的抓取解决方案。在工业分拣线上，基于该数据训练的模型能够通过非对称双摄感知物体姿态与深度特征，从而实现对手艺术品或精密部件的稳妥抓取。在仓储物流领域，机械臂可依据前视与侧视的互补视觉信息动态调整夹爪开合与腕部姿态，显著提升复杂包装箱内异形物品的拾取成功率。此外，在医疗辅助或家庭服务机器人中，该数据集提供的精细动作序列为软性物体的无损搬运提供了教学模板，使得机械臂能够模仿人类操作员的细腻控制。

衍生相关工作

围绕该数据集的核心特征，学术界已衍生出多项代表性工作。一方面，研究者利用其不对称双摄配置提出了多模态融合的注意力机制网络，显著提升了遮挡场景下的抓取成功率。另一方面，也有工作在此数据集上验证了基于扩散策略的轨迹生成方法的有效性，证明其噪声鲁棒性优于传统的高斯混合模型。此外，该数据集中包含的多种夹爪状态与关节角度组合，已被用于开发面向跨具身迁移学习的新型表征框架，推动了从固定演示到适配不同机械臂尺寸的通用策略学习。这些衍生工作共同勾勒出从数据驱动到知识迁移的机器人学习演进图景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集