pareshppp/so101_pick_place_v5

Name: pareshppp/so101_pick_place_v5
Creator: pareshppp
Published: 2026-04-26 07:03:20
License: 暂无描述

Hugging Face2026-04-26 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/pareshppp/so101_pick_place_v5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，是一个机器人操作相关的数据集。包含40个episodes，38006帧数据，8个任务。数据集记录了机械臂的动作（包括肩部、肘部、腕部和夹持器的位置）、观察状态（同样包括各关节位置）、来自腕部和顶部摄像头的图像数据（480x640分辨率，30fps），以及时间戳、帧索引、episode索引等元数据。数据以parquet格式存储，总数据文件大小为100MB，视频文件大小为200MB。

This dataset was created using LeRobot and is related to robotic operations. It contains 40 episodes, 38006 frames, and 8 tasks. The dataset records robotic arm actions (including positions of shoulder, elbow, wrist, and gripper), observation states (similarly including joint positions), image data from wrist and top cameras (480x640 resolution, 30fps), as well as metadata such as timestamps, frame indices, and episode indices. The data is stored in parquet format, with a total data file size of 100MB and video file size of 200MB.

提供机构：

pareshppp

搜集汇总

数据集介绍

构建方式

so101_pick_place_v5数据集基于LeRobot框架构建，专注于机器人抓取与放置操作任务。数据集包含67个完整轨迹，总计61,067帧图像，覆盖15种不同的抓取任务场景。数据采集采用SO Follower机器人平台，以30帧/秒的采样频率同步记录多模态信息，包括肩部、肘部、腕部及夹爪的6维关节动作指令与状态观测，以及腕部和顶部两个视角的高清RGB视频流（分辨率480×640）。数据以Parquet格式存储，每个轨迹按1000帧为单元进行分块，便于高效加载与处理。

特点

该数据集的核心特色在于其多维度、高保真的机器人操作记录。动作空间与状态空间均采用6维连续值，精确刻画机械臂各关节位置与夹爪开合程度。视觉观测包含腕部第一人称视角和顶部俯视视角的双目视频流，编码格式为AV1，兼顾画质与压缩效率。数据集还附带时间戳、帧索引、轨迹索引等元信息，支持时间对齐与序列分析。所有任务索引化清晰，便于针对特定抓取策略进行细粒度检索与训练。

使用方法

数据集可通过LeRobot库直接加载，使用默认配置即可读取Parquet数据文件与MP4视频文件。训练时，建议按照官方提供的轨迹分割（全部用于训练）进行处理，利用'observation.state'作为状态输入，'action'作为目标输出，配合双视角图像序列进行模仿学习或强化学习。用户可借助Hugging Face可视化工具预览轨迹，并通过调整图片尺寸（如降采样至224×224）适配常见神经网络架构。数据已按Apache-2.0协议开源，适合机器人学习领域研究与开发。

背景与挑战

背景概述

该数据集so101_pick_place_v5由研究者pareshppp构建，创建于LeRobot框架之上，专注于机器人操作领域的抓取与放置任务。数据集共包含67个演示片段、约6.1万帧图像，涵盖15种不同的操作任务，并通过双视角（腕部与顶部）摄像头记录480×640分辨率的视频，辅以六自由度关节状态与动作序列。该数据集旨在为模仿学习与机器人技能迁移研究提供高质量多模态训练样本，尤其在数据驱动策略的泛化性与鲁棒性评估方面具有重要价值，推动了具身智能中从感知到执行的端到端学习范式发展。

当前挑战

该数据集面临多重挑战：首先，机器人抓取与放置任务本身涉及复杂的接触动力学与物体几何多样性，难以通过有限样本覆盖全部真实场景，导致模型泛化能力不足。其次，构建过程中需同步记录高帧率视觉与关节状态数据，并在不同光照与背景条件下保持数据一致性，人工标注占用巨大成本。此外，67个演示的规模限制了复杂策略的收敛效果，多视角视频的同步对齐与压缩编码也带来了存储与处理上的技术难题，亟需更高效的采集与增强方法以提升数据利用率。

常用场景

经典使用场景

在机器人操作与模仿学习领域，so101_pick_place_v5数据集被广泛用于训练基于视觉的抓取与放置策略。该数据集包含67个由so_follower机械臂执行的任务片段，涵盖了肩关节、肘关节、腕关节及夹爪的连续运动轨迹，同时提供腕部和顶部视角的高清视频观测。研究者常利用这些多模态数据（关节状态与第一人称图像）来构建端到端的控制模型，例如通过行为克隆或逆强化学习方法，使机器人学会从视觉输入直接映射动作输出，尤其适用于细粒度操作场景中的物体抓取与精确放置任务。

解决学术问题

该数据集为机器人学中的少样本模仿学习与多任务泛化研究提供了标准化基准。它解决了如何从有限演示中高效提取操作技能的核心难题，特别是针对高维连续动作空间和部分可观测环境下的策略学习。通过提供统一的运动学和视觉数据，so101_pick_place_v5推动了跨任务知识迁移方法的发展，并验证了基于预训练视觉表征的模仿学习框架在减少人类示范数量方面的有效性，为探索机器人在非结构化环境下的自主操作能力奠定了数据基础。

衍生相关工作

该数据集衍生出一系列关于数据增强与跨形态迁移学习的经典工作。研究者基于其高帧率视频和运动序列，开发了时序对比学习框架用于增强演示数据的多样性，并探索了将so_follower平台的策略迁移至UR5、Franka Emika等不同机械臂架构的方法。此外，部分工作利用该数据集验证了基于扩散模型的策略生成在机器人操作任务中的可行性与鲁棒性，推动了从数据驱动到模型驱动的机器人学习范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集