DistantSky/test_pick_place_arx_lerobot_raw200_h200
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DistantSky/test_pick_place_arx_lerobot_raw200_h200
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,包含机器人相关的观测数据和动作数据。数据集结构包括视频观测(左侧和顶部视角)、状态观测、速度观测、动作数据等。具体参数包括:总帧数11779帧,总视频数100个,FPS为60,总任务数为1,总片段数为50。数据格式为HDF5,许可证为apache-2.0。
This dataset was created using LeRobot, containing robot-related observation data and action data. The dataset structure includes video observations (left and overhead views), state observations, velocity observations, action data, etc. Specific parameters include: total frames 11779, total videos 100, FPS 60, total tasks 1, total episodes 50. The data format is HDF5, and the license is apache-2.0.
提供机构:
DistantSky
搜集汇总
数据集介绍

构建方式
该数据集依托LeRobot框架构建,聚焦于机器人抓取与放置任务(pick and place),采用Hessian型机器人平台在真实环境中采集数据。共收录了50个演示片段(episodes),总计11779帧,以60帧每秒的高采样率记录。数据存储格式为HDF5与Parquet的组合,其中影像数据以AV1编码的MP4视频保存,分辨率为224×224,分别来自左视与俯视两个视角;状态与动作信息则作为浮点型张量存储,并额外提供了原始动作(raw_action)及未来200步动作序列(action_raw_future)等衍生特征,为模仿学习与运动规划研究提供了丰富的基础素材。
特点
本数据集的核心特点在于其多模态与前瞻性设计。除了包含机器人关节位置(observation.state,7维)、速度(observation.velocity,6维)与执行动作(action,7维)外,特别引入了原始动作(raw_action)与未来200步的动作规划(action_raw_future,200×7),为时序建模与长期规划任务(如行为克隆、隐式规划)提供了理想的训练数据。同时,双视角视觉输入(video_left与video_overhead)覆盖了操作空间,而prompt字段则赋予了任务语义描述能力,使得数据集不仅适用于端到端学习,也可服务于多任务泛化场景。
使用方法
使用时,用户可通过LeRobot社区的标准API加载数据集,其默认配置指向data/*/*.parquet文件。数据已预设训练集划分(0至49集),便于直接用于模型训练。对于视觉输入,推荐使用Hugging Face的datasets库处理视频帧;动作数据可直接作为回归目标,其中action_raw_future字段特别适合用于基于扩散模型或Transformer的序列预测模型。此外,建议用户结合LeRobot提供的可视化工具进行数据预览,或依据自身任务对原始动作时间戳等辅助特征进行筛选与重采样,以适应不同的控制频率需求。
背景与挑战
背景概述
该数据集由LeRobot社区创建,旨在为机器人操作任务提供高保真的真实世界演示数据。数据集发布于2024年,由Hugging Face主导,依托于LeRobot框架(v2.1),专注于解决机器人抓取与放置任务(pick-and-place)的模仿学习问题。核心研究问题在于如何利用多模态传感器数据(包括双视角视觉图像、关节状态、速度及未来动作序列)训练机器人完成精确的物体操作。数据集包含50个示范轨迹,共计11779帧,以60 FPS的高时间分辨率记录,包含224×224像素的左侧与俯视摄像头画面,以及7维状态与动作空间。作为领域内首批标准化的真实机器人操作数据集之一,它为机器人学习社区提供了可复现的基准,推动了从仿真到真实世界迁移的研究进程。
当前挑战
该数据集所应对的领域挑战在于机器人精细操作技能的泛化难题,尤其是对抓取姿态、避障及动态环境下动作鲁棒性的需求。传统基于模型的方法难以处理非结构化场景,而示范数据驱动的模仿学习则受限于数据量不足与观测噪声。数据集本身构建过程中面临多重挑战:首先,真实硬件(Hessian机器人)的动力学特性复杂,需同步记录7维动作与6维速度,确保时间戳精确对齐;其次,双路图像采集在60 FPS下产生大量视频数据,需采用AV1编码压缩以平衡保真度与存储效率;再者,任务(pick_place)的单一性导致仅有50个有效片段,且每个片段需标注未来200步的动作空间(action_raw_future),为长程时序建模提供了数据瓶颈。这些挑战反映了真实人形机器人数据收集的高成本与低复现性,也凸显了当前机器人学习在数据规模与多样性上的结构性缺陷。
常用场景
经典使用场景
在机器人学习领域,该数据集通过Hessian机械臂在真实世界中执行抓取与放置任务,记录了包含多视角视觉观测、关节状态、速度及原始动作信号的精细时序数据。其经典使用场景聚焦于模仿学习与行为克隆研究,研究者可利用50个演示片段中11,779帧的连续动作序列与高帧率(60 FPS)视觉输入,训练机器人从视觉到动作的端到端映射策略。特别地,数据集中提供的200维未来动作轨迹(action_raw_future)为预测式控制与动态规划方法提供了坚实的数据基础,使得模型能够学习超越单步决策的长期规划能力。
解决学术问题
该数据集精准回应了机器人学习中数据稀缺性与泛化能力不足的核心困境。通过提供真实物理环境下的交互数据,它有效解决了仿真到现实(Sim-to-Real)迁移中的深度鸿沟问题,使得学习到的策略能够在真实世界中展现鲁棒性。此外,数据中同时包含原始控制信号与平滑动作指令,为研究动作空间正则化、噪声抑制以及低层级控制与高层级规划之间的协调机制提供了关键实验素材。这些特性推动了机器人操作领域从简单轨迹复现向复杂技能泛化的学术跨越。
衍生相关工作
该数据集孕育了多项具有影响力的研究工作,其中最突出的方向是基于隐式动作表达的分层模仿学习框架。研究者利用数据中的原始动作与未来轨迹信息,发展了能够在执行阶段动态修正错误的分层策略模型。此外,数据集中的多视角视觉输入催生了跨模态融合技术的突破,诸如视觉-动作联合编码器设计显著提升了策略的泛化能力。在数据增强方面,基于该数据的动作时序插值与轨迹拼接方法为小样本学习提供了全新范式,有效降低了机器人技能获取的数据采集成本。
以上内容由遇见数据集搜集并总结生成



