sonny88/so101_test

Name: sonny88/so101_test
Creator: sonny88
Published: 2026-04-27 08:00:54
License: 暂无描述

Hugging Face2026-04-27 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/sonny88/so101_test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过LeRobot创建的机器人相关数据集，包含5个episodes、750帧数据和1个任务。数据以parquet格式存储，包含动作、观测状态、图像等特征。具体特征包括：6个浮点数的动作数据（肩部旋转、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转、夹持器位置），6个浮点数的观测状态数据，480x640分辨率的3通道前视图像（30fps），以及时间戳、帧索引、episode索引等元数据。

This dataset is a robotics-related dataset created using LeRobot, containing 5 episodes, 750 frames of data, and 1 task. The data is stored in parquet format and includes features such as actions, observation states, and images. Specific features include: 6 float32 action data (shoulder pan position, shoulder lift position, elbow flex position, wrist flex position, wrist roll position, gripper position), 6 float32 observation state data, 480x640 resolution 3-channel front view images (30fps), as well as metadata such as timestamps, frame indices, and episode indices.

提供机构：

sonny88

搜集汇总

数据集介绍

构建方式

so101_test数据集以LeRobot框架为基石构建，旨在为机器人模仿学习提供标准化数据资源。其采集过程依托so_follower机器人平台，通过遥操作或预设轨迹收集任务演示数据，涵盖5个完整演示片段（episode），总计3550帧图像与状态信息，每段包含约1000帧的连续动作序列。数据以Parquet格式存储于chunk分片中，并辅以AV1编码的MP4视频文件，实现高效存储与加载，统一采用30帧/秒的采样率以保持时序一致性。

特点

该数据集的核心特色在于其精细化的多模态数据架构。每个样本同步采集六维关节空间动作与状态数据（shoulder_pan、shoulder_lift、elbow_flex、wrist_flex、wrist_roll及gripper位置），同时配备480×640像素的前置摄像头视觉观测。数据提供完整的时间戳与帧索引，严格对齐动作、状态与视觉信息，便于策略网络学习时间序列映射。数据集容量控制精细，总计约300MB，适合快速原型验证与小规模基准测试。

使用方法

采用LeRobot库可直接加载该数据集进行模型训练与评估。用户需通过LeRobot的Dataset接口指向本地存储的Parquet文件与视频目录，依据内含的split划分（训练集覆盖所有5个片段）创建数据迭代器。推荐使用框架内置的DataLoader进行批量采样，结合chunks_size=1000的分片机制实现内存高效管理。可便捷地提取action与observation.state作为策略输入，配合observation.images.front作为视觉条件，适用于模仿学习中的行为克隆或逆强化学习任务。

背景与挑战

背景概述

so101_test数据集由Hugging Face团队基于LeRobot框架创建，旨在为机器人操作任务提供标准化的数据支持。该数据集于近期发布，采用Apache-2.0许可协议，聚焦于“so_follower”类型机器人的动作模仿学习。核心研究问题在于如何通过低成本、高效率的数据采集方式，推动机器人从示教中学习复杂技能。数据集包含5个完整回合、3550帧视觉与状态数据，以高频30帧每秒记录6维关节动作及对应图像，为机器人行为克隆与强化学习提供了基础训练资源。尽管规模有限，但其结构化设计体现了当前机器人数据集向轻量化、高帧率与多模态融合发展的趋势，有望促进低成本机器人操作算法的快速验证与复现。

当前挑战

该数据集面临的挑战主要集中在领域问题与构建过程两方面。在领域层面上，机器人操作任务的复杂性要求数据集具备多样化的任务类型与更丰富的交互场景，但当前仅含单一任务、5个回合的规模难以支撑通用策略的学习，易导致模型过拟合于特定环境。构建过程中，数据采集依赖人工遥操作，存在效率低下与一致性问题，且视频编码采用AV1格式虽压缩率高，但解码计算成本大，影响后续训练效率。此外，动作空间与状态空间高度同步，对传感器校准与数据对齐提出了严苛要求。如何平衡数据质量、规模与采集成本，以及如何设计统一的数据格式以便跨机器人平台复用，仍是亟待突破的核心瓶颈。

常用场景

经典使用场景

在机器人学习领域，so101_test数据集为模仿学习与行为克隆研究提供了经典的测试平台。该数据集包含来自so_follower机器人的5个完整任务回合，共计3550帧高保真观测数据，涵盖6维关节空间动作序列与640×480分辨率的前视视觉影像。研究者常以此为基准，评估端到端策略网络在有限样本下的泛化能力，或探索多模态融合方法对于机器人操作任务的有效性，尤其在低数据量场景下验证算法鲁棒性。

实际应用

在实际部署层面，so101_test数据集可作为工业机器人臂的预训练验证集与仿真到现实迁移的桥梁。开发人员利用其标准化的parquet格式与视频编码结构，在LeRobot框架内快速测试控制算法实时性，并评估模型在物体抓取、装配等精细操作中的表现。其紧凑的5回合示范规模，特别适合边缘端计算资源受限场景下的快速原型迭代与迁移学习初始化。

衍生相关工作

该数据集衍生了若干关键研究方向，包括基于关键帧的行为片段分割与重构方法，以及利用时序对比学习增强动作表征的预训练范式。研究者借鉴其结构化元数据，发展出多视角视频融合策略与异常检测模块，并催生了针对so_follower类串联机械臂的专用仿真环境适配工具。这些工作进一步拓展了LeRobot生态圈中数据驱动控制器的模块化设计思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集