aShunSasaki/so101_pp_stationery_5obj_color_select_v3
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/aShunSasaki/so101_pp_stationery_5obj_color_select_v3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个机器人相关的数据集,使用LeRobot创建。包含677个episodes,492150帧数据,8个任务。数据以parquet格式存储,视频数据以mp4格式存储。数据集包含动作(如shoulder_pan.pos等6个关节位置)、观测状态(与动作相同的6个关节位置)、手腕图像(720x1280分辨率,30fps)等多种特征。
This dataset is a robotics-related dataset created using LeRobot. It contains 677 episodes, 492150 frames, and 8 tasks. The data is stored in parquet format, and video data is stored in mp4 format. The dataset includes various features such as actions (e.g., shoulder_pan.pos and other 5 joint positions), observation states (same 6 joint positions as actions), wrist images (720x1280 resolution, 30fps), etc.
提供机构:
aShunSasaki
搜集汇总
数据集介绍

构建方式
该数据集基于LeRobot框架构建,专为机器人操控任务设计。数据集包含677个完整演示片段,总计492150帧,涵盖8种不同任务。其采集环境以桌面文具为操作对象,聚焦于5种物体的颜色选择任务。视频与动作数据同步记录,采用30帧/秒的高采样率,保证时间维度的精细度。数据存储格式高效,将100MB的parquet文件与200MB的mp4视频分块存储,便于分布式加载与流式访问。
特点
数据集的核心特点在于其结构完整性与多模态融合能力。每个样本同时记录机械臂6自由度关节动作(shoulder_pan、shoulder_lift、elbow_flex、wrist_flex、wrist_roll及gripper)与对应状态观测值,并配备1280×720分辨率的手腕视角视频流。视频采用AV1编码压缩,在保证画质的同时减小存储开销。数据已按训练集(0:677索引)划分,无需额外预处理即可直接用于模仿学习算法的训练与验证。
使用方法
推荐通过LeRobot库加载该数据集,使用`lerobot.Dataset`接口指向路径即可自动解析parquet与视频文件。核心字段包括`action`(动作指令)、`observation.state`(机器人状态)及`observation.images.wrist`(视觉观测)。支持按片段索引或帧索引随机访问,配合`chunks_size=1000`的分块策略实现高效内存管理。研究者可灵活提取任意时序窗口的连续动作-状态-图像三元组,用于训练基于视觉的机器人操控策略模型。
背景与挑战
背景概述
在机器人学习领域,模仿学习与强化学习的发展亟需高质量、多样化的操作数据集,以推动机器人从简单任务向精细操控迈进。so101_pp_stationery_5obj_color_select_v3数据集由研究者在LeRobot框架下创建,于近期发布并托管于HuggingFace平台,专注于解决桌面级精细操作任务。该数据集以so_follower机器人为主体,围绕5种不同颜色的文具对象开展颜色选择与抓取任务,共包含677个演示序列、近50万帧时序数据,覆盖8个子任务。通过记录6维度关节动作、状态信息及720p高清腕部视觉流,该数据集为机器人多模态感知、动作规划与任务泛化研究提供了坚实的数据基础,对推动基于视觉的灵巧操作模仿学习具有重要参考价值。
当前挑战
该数据集所应对的领域核心挑战在于,如何使机器人具备在复杂桌面环境中对多类精细物体进行颜色感知与选择性抓取的能力,这超越了传统二指抓取或固定物体操作场景,要求模型同时关注视觉辨别与运动控制的协同优化。在构建过程中,挑战主要体现在数据采集的标准化与规模化平衡、长时序(492150帧)下动作与视频流的时间戳严格对齐,以及确保8类任务在有限演示(677个episode)中覆盖足够的行为多样性。此外,多视角(腕部单目)限制下的部分遮挡、不同文具材质反射特性引起的视觉干扰,以及高帧率(30fps)视频存储与AV1编码的压缩效率,也对数据集质量与可用性提出了严峻考验。
常用场景
经典使用场景
在机器人学习与操作领域,so101_pp_stationery_5obj_color_select_v3数据集为模仿学习与行为克隆提供了精细化的训练资源。该数据集基于so_follower机器人平台,采集了677个示范回合,涵盖8种任务,包含约49万帧的高清腕部视觉与关节状态序列。其最经典的使用场景在于训练机器人从视觉输入中学习精细的物体选择与抓取策略,尤其是针对五种不同颜色的文具进行选择性操作,这要求模型能够理解颜色语义与空间位姿的关联,从而完成高精度的分类抓取任务。
解决学术问题
该数据集有效解决了机器人领域中的视觉运动控制与少样本泛化学术难题。通过提供六维关节动作与同步腕部视觉流,研究者可以探索如何将高维图像特征映射为低维动作指令,从而推动端到端模仿学习算法的鲁棒性研究。其聚焦于颜色选择性操作的设计,特别有助于研究跨物品的视觉特征解耦与任务条件化策略,为理解机器人如何在多目标环境中进行语义驱动的决策提供了关键的基准数据,在提升数据效率与任务泛化能力方面具有深远意义。
衍生相关工作
基于该数据集衍生的经典工作主要包括条件式模仿学习模型的开发与多任务视觉运动策略的联合训练。研究者常利用其多回合、多任务的结构,构建具备颜色条件控制的动作预测架构,例如引入注意力机制将颜色掩码与空间特征融合以生成精确的抓取位姿。此外,该数据集还催生了关于数据增强与域随机化在机器人泛化中作用的研究,以及利用其高质量时序信息进行动作序列编解码的生成模型改进工作,推动了机器人学习从单任务专家演示向多任务通用策略的演进。
以上内容由遇见数据集搜集并总结生成



