so101_pp_stationery_5obj_color_select_v1

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/aShunSasaki/so101_pp_stationery_5obj_color_select_v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，专注于机器人技术领域。数据集包含277个任务片段，总计210316帧数据，数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据结构包括动作状态（如肩部、肘部、腕部等的位置）、观察状态（与动作状态相同）、手腕摄像头拍摄的图像（720x1280分辨率，3通道，30fps）以及时间戳、帧索引、片段索引、任务索引等元数据。数据以parquet格式存储，视频以mp4格式存储。适用于机器人控制、行为学习等任务。

创建时间：

2026-04-23

原始信息汇总

数据集概述：so101_pp_stationery_5obj_color_select_v1

该数据集由 LeRobot 创建，专注于机器人操控任务，包含丰富的视觉和动作数据。

许可协议：Apache-2.0
任务类别：机器人学 (Robotics)
标签：LeRobot

数据集规模与结构

总片段数 (Episodes)：277
总帧数 (Frames)：210,316
总任务数 (Tasks)：5
帧率 (FPS)：30
数据文件大小：100 MB
视频文件大小：200 MB
数据拆分：全部用于训练 (train: 0-277)

数据特征

每个样本包含以下特征：

action：6维浮点数组，记录机器人各关节的动作位置：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos
observation.state：6维浮点数组，记录机器人各关节的观测状态（与动作维度名称相同）。
observation.images.wrist：视频数据，分辨率为 720×1280 像素，3通道 (RGB)，AV1 编码，30 FPS。
timestamp：时间戳 (float32)
frame_index：帧索引 (int64)
episode_index：片段索引 (int64)
index：全局索引 (int64)
task_index：任务索引 (int64)

数据存储路径

数据文件路径：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专注于机器人操作任务，具体涉及对5种文具对象进行颜色分类的选择性操作。数据集通过安装在机器人腕部的摄像头采集高分辨率视频流（720×1280像素，30帧/秒），同时记录6维关节空间的动作指令与状态观测，包括肩部、肘部、腕部及夹爪的位置信息。共计收录277个演示片段，包含210,316帧时序数据，并划分为单一训练集。数据以Parquet格式存储结构化信息，视频则以AV1编码压缩保存。

特点

数据集以多模态信息融合为显著特点，同时提供高维视觉观测（腕部摄像头RGB图像）、低维状态信息（关节位置）以及对应的动作标签。每个片段均包含精确的时序对齐（时间戳与帧索引），并支持多任务索引（涵盖5种不同文具的颜色选择任务）。数据规模适中，总大小约300MB，便于快速加载与原型验证。此外，所有数据遵循Apache-2.0开源协议，便于学术研究与商业应用。

使用方法

用户可通过HuggingFace的LeRobot库便捷加载该数据集。首先，利用`from huggingface_hub import snapshot_download`下载仓库；随后，使用`import lerobot`和`from lerobot.common.datasets.lerobot_dataset import LeRobotDataset`创建数据集对象，指定数据集名称与根目录。加载后，用户可按帧或按片段迭代访问，提取动作、状态、图像等多模态数据，用于模仿学习、行为克隆或强化学习算法的训练与评估。数据集内置可视化工具（LeRobot空间），支持在线预览演示片段。

背景与挑战

背景概述

该数据集由aShunSasaki等人基于LeRobot框架创建，专注于机器人操作领域的模仿学习研究。核心研究问题在于如何通过视觉-动作联合表征，使机器人能够精准完成面向文具类物体的颜色选择与抓取任务。数据集于近期发布，包含277个演示片段，共计超过21万帧高分辨率腕部摄像头图像，记录了5种不同任务的机械臂运动轨迹与关节状态。作为so_follower机器人类型的数据驱动操作基准，它为多任务机器人学习提供了标准化训练样本，推动了具身智能中视觉引导精细操作的发展。

当前挑战

该数据集旨在解决机器人领域中的精细操作与颜色选择性抓取难题，传统方法难以处理多物体场景下基于视觉属性的实时决策。构建过程中面临两大挑战：一是数据采集需精确同步6自由度关节状态与1280×720分辨率的高频视频流，确保动作-观测时空一致性；二是任务多样性要求覆盖5种不同颜色文具的差异化操作模式，人工演示需平衡动作的一致性与泛化性。此外，Apache-2.0许可下的开源发布虽促进了社区共享，但数据标准化与补全缺失的元信息（如论文、主页）仍是后续应用的关键障碍。

常用场景

经典使用场景

在机器人操作与模仿学习的研究领域中，so101_pp_stationery_5obj_color_select_v1数据集专为基于视觉和状态的高精度操控任务设计。它收录了277段示范轨迹，涵盖5种颜色各异的文具物件（如笔、尺等）的挑选与抓取操作。每段轨迹均包含6自由度机械臂的关节位置与末端夹爪动作，并配备720p分辨率的手腕视角视频流，以30帧/秒连续录制。研究者可将其用于训练机器人从原始像素与本体感知中学习‘颜色引导的物件选择’策略，是验证视觉-运动联合表征学习能力的经典基准。

实际应用

在实际工业与服务业场景中，该数据集可直接服务于基于视觉的自动分拣系统，例如在生产线或仓库中识别并抓取指定颜色的文具、零件或包装品。其示范数据可被用于训练机器人执行定制化任务，如根据颜色提示完成物料归类，或是辅助操作员进行重复性拣选工作。此外，该数据集在智能教育机器人领域也有潜力，支持构建能理解颜色指令并执行拾取任务的教学演示系统，降低人机交互中的认知门槛。

衍生相关工作

该数据集促进了若干经典衍生工作的诞生。在模仿学习范畴，它被用于比较基于动作分块（Action Chunking）与基于扩散策略（Diffusion Policy）的精细操控性能，推动生成式模型在机器人规划中的应用。在视觉表征领域，研究人员以其为测试床，开发了用于物件属性辨识的自监督预训练方法。此外，该数据集还启发了基于颜色先验的抓取检测网络设计工作，以及将语言指令与视觉提示结合的跨模态机器人控制研究，为构建通用型操作智能体铺设了数据基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集