HSP-IIT/pick_place_2nd
收藏Hugging Face2026-05-05 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/HSP-IIT/pick_place_2nd
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,主要用于机器人操作任务。数据集包含51个片段,共8798帧,数据文件大小为100MB,视频文件大小为200MB,帧率为10fps。数据集包含动作、观察状态、图像观察(手腕和左侧RGB图像)、时间戳、帧索引、片段索引、索引和任务索引等特征。动作和观察状态特征包括位置(x, y, z)、方向(x, y, z)和夹持器状态。图像观察特征为480x640分辨率的RGB图像,视频编码为av1,像素格式为yuv420p。数据集采用Apache 2.0许可证。
This dataset was created by LeRobot and is primarily used for robotics manipulation tasks. It consists of 51 episodes with a total of 8798 frames, data files size of 100MB, video files size of 200MB, and a frame rate of 10fps. The dataset includes features such as action, observation state, image observations (wrist and left RGB images), timestamp, frame index, episode index, index, and task index. The action and observation state features include position (x, y, z), orientation (x, y, z), and gripper state. The image observation features are RGB images with a resolution of 480x640, video codec av1, and pixel format yuv420p. The dataset is licensed under Apache 2.0.
提供机构:
HSP-IIT
搜集汇总
数据集介绍

构建方式
在机器人学习领域,精准的操控数据是训练智能体执行复杂任务的关键。本数据集依托LeRobot框架构建,记录了在定制的机械臂平台上完成的拾取与放置任务。数据采集以高频率(10帧/秒)进行,共包含51个操控片段(episodes),总计8798帧有效数据。每个片段完整记录了从初始状态到任务完成的连续动作序列,并将其打包为100MB的数据块和200MB的视频块,以Parquet和MP4格式高效存储。构建过程中,系统同时捕获了机械臂末端执行器的7维动作向量(包括位置、姿态与夹爪开合度)以及对应的观测状态,确保了数据的时空一致性。
使用方法
本数据集专为机器人操控任务的模仿学习与强化学习研究设计。使用者可通过LeRobot库的标准化接口加载数据,自动解析Parquet文件中的动作和状态序列,以及视频帧数据。典型应用场景包括训练基于视觉的运动策略,其中观测图像(如腕部与左视角RGB)作为输入,预测对应的7维控制指令。由于数据集包含完整的时序信息,特别适用于开发时序模型(如Transformer或LSTM)来处理动态操控任务。建议将51个片段随机划分为训练与验证子集,或直接利用预定义的全量训练集进行端到端的策略学习与评估。
背景与挑战
背景概述
在机器人操作学习领域,模仿学习与行为克隆方法依赖于高质量、任务导向的演示数据集来训练稳健策略。pick_place_2nd数据集由HSP-IIT机构基于LeRobot框架创建,专注于机械臂的抓取与放置(pick-and-place)操作任务,于近期公开发布。该数据集记录了单一任务下51个演示片段,共计8798帧,通过定制机械臂、腕部及左侧RGB摄像头以10 FPS采集多视角视频与关节状态信息,精确捕捉了末端执行器的位置、姿态及夹爪状态。作为面向精细操作行为研究的资源,其结构化的特征格式与Apache-2.0许可,为机器人操作策略的复现与泛化研究提供了标准化基准,推动了具身智能领域从仿真到真实场景的迁移学习探索。
当前挑战
该数据集所解决的领域核心挑战在于,机械臂的实时抓取与放置任务受高维状态空间与复杂物理交互制约,传统规则式方法难以应对工件姿态变化与夹具力矩控制的不确定性。构建过程中,数据采集面临精确标注的困难,需同步校准视觉与运动学信息,确保动作序列紧贴最优策略;同时,51个片段的有限样本量对策略的泛化能力构成显著挑战,易引发过拟合,且在低数据量下训练行为克隆模型时,长程执行误差累积与补偿机制的设计仍是关键瓶颈。
常用场景
经典使用场景
在机器人操作领域,该数据集为模仿学习与行为克隆提供了宝贵的训练素材。研究者可借助其中包含的末端执行器轨迹、夹爪状态以及多视角视觉观测,训练机器人模型复现精准的抓取与放置动作。数据以高频率采样的时间序列形式呈现,结合连续的七维动作空间,能够有效支撑对连续控制策略的学习与评估。作为LeRobot生态的一部分,该数据集也常被用于多模态数据预处理和策略泛化能力的基准测试。
解决学术问题
该数据集旨在解决机器人操作中基于示范的泛化学习难题,尤其是在有限样本条件下,如何从少量演示中提取可迁移的动作表征。通过提供结构化的状态-动作对与视觉观测,它助力学者探索隐式建模与端到端策略间的权衡关系。同时,数据集对夹爪微操作和位姿估计的精细标注,推动了针对复杂物体交互中接触力与运动规划的深入研究,为操作技能从仿真向真实场景迁移提供了关键支撑。
实际应用
在实际工业与家庭辅助场景中,该数据集所代表的抓取-放置技能,可直接应用于自动化分拣系统、桌面整理以及康复辅助机械臂的控制。例如,机器人可以通过学习该数据集中腕部与左视角的多角度画面,在非结构化环境中自主识别目标物体并完成递送任务。数据中对于执行器平稳性与成功率的设计考量,也为仓储物流中的高精度装卸、实验室样品转移等场景提供了技术验证基础。
数据集最近研究
最新研究方向
在机器人操作学习领域,pick_place_2nd数据集聚焦于精细化的抓取与放置任务,通过LeRobot框架采集了51个高质量演示片段,包含来自腕部和左侧摄像头的多视角视觉输入以及完整的七维状态-动作空间。当前前沿研究正积极利用此类数据集,探索基于视觉模仿学习的机器人泛化能力,尤其是在非结构化环境中对物体的自适应抓取策略。伴随着大模型与扩散策略在机器人领域的渗透,该数据集为研究从少量演示中高效提取操控技能提供了关键基准,其结构化数据格式与兼容性设计显著推动了离线强化学习和行为克隆的实证进展,对实现低成本、可复现的机器人学习实验范式具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



