so101_pp_stationery_5obj_color_select_v1
收藏Hugging Face2026-04-24 更新2026-04-25 收录
下载链接:
https://huggingface.co/datasets/aShunSasaki/so101_pp_stationery_5obj_color_select_v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,专注于机器人技术领域。数据集包含277个任务片段,总计210316帧数据,数据文件大小为100MB,视频文件大小为200MB,帧率为30fps。数据结构包括动作状态(如肩部、肘部、腕部等的位置)、观察状态(与动作状态相同)、手腕摄像头拍摄的图像(720x1280分辨率,3通道,30fps)以及时间戳、帧索引、片段索引、任务索引等元数据。数据以parquet格式存储,视频以mp4格式存储。适用于机器人控制、行为学习等任务。
创建时间:
2026-04-23
原始信息汇总
数据集概述:so101_pp_stationery_5obj_color_select_v1
该数据集由 LeRobot 创建,专注于机器人操控任务,包含丰富的视觉和动作数据。
- 许可协议:Apache-2.0
- 任务类别:机器人学 (Robotics)
- 标签:LeRobot
数据集规模与结构
- 总片段数 (Episodes):277
- 总帧数 (Frames):210,316
- 总任务数 (Tasks):5
- 帧率 (FPS):30
- 数据文件大小:100 MB
- 视频文件大小:200 MB
- 数据拆分:全部用于训练 (train: 0-277)
数据特征
每个样本包含以下特征:
action:6维浮点数组,记录机器人各关节的动作位置:shoulder_pan.posshoulder_lift.poselbow_flex.poswrist_flex.poswrist_roll.posgripper.pos
observation.state:6维浮点数组,记录机器人各关节的观测状态(与动作维度名称相同)。observation.images.wrist:视频数据,分辨率为 720×1280 像素,3通道 (RGB),AV1 编码,30 FPS。timestamp:时间戳 (float32)frame_index:帧索引 (int64)episode_index:片段索引 (int64)index:全局索引 (int64)task_index:任务索引 (int64)
数据存储路径
- 数据文件路径:
data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet - 视频文件路径:
videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
搜集汇总
数据集介绍

构建方式
该数据集基于LeRobot框架构建,专注于机器人操作任务,具体涉及对5种文具对象进行颜色分类的选择性操作。数据集通过安装在机器人腕部的摄像头采集高分辨率视频流(720×1280像素,30帧/秒),同时记录6维关节空间的动作指令与状态观测,包括肩部、肘部、腕部及夹爪的位置信息。共计收录277个演示片段,包含210,316帧时序数据,并划分为单一训练集。数据以Parquet格式存储结构化信息,视频则以AV1编码压缩保存。
特点
数据集以多模态信息融合为显著特点,同时提供高维视觉观测(腕部摄像头RGB图像)、低维状态信息(关节位置)以及对应的动作标签。每个片段均包含精确的时序对齐(时间戳与帧索引),并支持多任务索引(涵盖5种不同文具的颜色选择任务)。数据规模适中,总大小约300MB,便于快速加载与原型验证。此外,所有数据遵循Apache-2.0开源协议,便于学术研究与商业应用。
使用方法
用户可通过HuggingFace的LeRobot库便捷加载该数据集。首先,利用`from huggingface_hub import snapshot_download`下载仓库;随后,使用`import lerobot`和`from lerobot.common.datasets.lerobot_dataset import LeRobotDataset`创建数据集对象,指定数据集名称与根目录。加载后,用户可按帧或按片段迭代访问,提取动作、状态、图像等多模态数据,用于模仿学习、行为克隆或强化学习算法的训练与评估。数据集内置可视化工具(LeRobot空间),支持在线预览演示片段。
背景与挑战
背景概述
该数据集由aShunSasaki等人基于LeRobot框架创建,专注于机器人操作领域的模仿学习研究。核心研究问题在于如何通过视觉-动作联合表征,使机器人能够精准完成面向文具类物体的颜色选择与抓取任务。数据集于近期发布,包含277个演示片段,共计超过21万帧高分辨率腕部摄像头图像,记录了5种不同任务的机械臂运动轨迹与关节状态。作为so_follower机器人类型的数据驱动操作基准,它为多任务机器人学习提供了标准化训练样本,推动了具身智能中视觉引导精细操作的发展。
当前挑战
该数据集旨在解决机器人领域中的精细操作与颜色选择性抓取难题,传统方法难以处理多物体场景下基于视觉属性的实时决策。构建过程中面临两大挑战:一是数据采集需精确同步6自由度关节状态与1280×720分辨率的高频视频流,确保动作-观测时空一致性;二是任务多样性要求覆盖5种不同颜色文具的差异化操作模式,人工演示需平衡动作的一致性与泛化性。此外,Apache-2.0许可下的开源发布虽促进了社区共享,但数据标准化与补全缺失的元信息(如论文、主页)仍是后续应用的关键障碍。
常用场景
经典使用场景
在机器人操作与模仿学习的研究领域中,so101_pp_stationery_5obj_color_select_v1数据集专为基于视觉和状态的高精度操控任务设计。它收录了277段示范轨迹,涵盖5种颜色各异的文具物件(如笔、尺等)的挑选与抓取操作。每段轨迹均包含6自由度机械臂的关节位置与末端夹爪动作,并配备720p分辨率的手腕视角视频流,以30帧/秒连续录制。研究者可将其用于训练机器人从原始像素与本体感知中学习‘颜色引导的物件选择’策略,是验证视觉-运动联合表征学习能力的经典基准。
实际应用
在实际工业与服务业场景中,该数据集可直接服务于基于视觉的自动分拣系统,例如在生产线或仓库中识别并抓取指定颜色的文具、零件或包装品。其示范数据可被用于训练机器人执行定制化任务,如根据颜色提示完成物料归类,或是辅助操作员进行重复性拣选工作。此外,该数据集在智能教育机器人领域也有潜力,支持构建能理解颜色指令并执行拾取任务的教学演示系统,降低人机交互中的认知门槛。
衍生相关工作
该数据集促进了若干经典衍生工作的诞生。在模仿学习范畴,它被用于比较基于动作分块(Action Chunking)与基于扩散策略(Diffusion Policy)的精细操控性能,推动生成式模型在机器人规划中的应用。在视觉表征领域,研究人员以其为测试床,开发了用于物件属性辨识的自监督预训练方法。此外,该数据集还启发了基于颜色先验的抓取检测网络设计工作,以及将语言指令与视觉提示结合的跨模态机器人控制研究,为构建通用型操作智能体铺设了数据基石。
以上内容由遇见数据集搜集并总结生成



