five

Sendera/pick0430p4

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Sendera/pick0430p4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由LeRobot创建,主要用于机器人技术领域。数据集包含25个episodes,11429帧,1个任务。数据特征包括动作(dx, dy, dz, dr, gripper_cmd)、观测状态(dummy_state)、三个全局摄像头(Cam1_global, Cam2_global, Cam3_global)的图像数据,以及时间戳、帧索引、episode索引等元数据。图像分辨率为400x400,帧率为30fps。数据以parquet格式存储,视频以mp4格式存储。数据集遵循apache-2.0许可证。

This dataset was created by LeRobot and is primarily used in the field of robotics. It contains 25 episodes, 11429 frames, and 1 task. The features include actions (dx, dy, dz, dr, gripper_cmd), observation states (dummy_state), images from three global cameras (Cam1_global, Cam2_global, Cam3_global), as well as metadata such as timestamps, frame indices, and episode indices. The image resolution is 400x400 with a frame rate of 30fps. Data is stored in parquet format, and videos are stored in mp4 format. The dataset is licensed under apache-2.0.
提供机构:
Sendera
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人学习领域,高质量的示范数据集是训练稳健策略的基石。该数据集基于LeRobot框架构建,旨在为机械臂的精确抓取任务提供标准化训练资源。数据采集过程通过CTR机器人平台执行,共记录25个完整演示回合,累计获取11429帧时序数据,并统一划分为训练集使用。所有数据按照固定帧率30 FPS进行同步采样,并以分块形式存储于Parquet文件中,每个数据块容纳1000帧,确保了大规模数据的高效读取与组织。
特点
数据集的一大特色在于其多模态观测体系与精细化的动作空间设计。它同时集成了三路全局RGB摄像头(Cam1至Cam3),每路提供400×400像素的高清视觉流,并采用AV1编码压缩以平衡质量与存储。动作空间则包含五维连续控制量,涵盖三维平移、一维旋转及夹爪指令,为模仿学习提供了丰富的运动表征。此外,每个样本均附带精确的时间戳与帧索引,便于时序对齐与轨迹复现。
使用方法
该数据集与LeRobot生态深度集成,用户可通过Hugging Face上的可视化工具直接浏览样本序列,降低数据预览门槛。在模型训练阶段,开发者可借助LeRobot的DataLoader模块,按数据块路径自动加载Parquet文件与关联的MP4视频片段。建议将25个回合全部用于训练,并利用五维动作向量与多视角图像作为输入,构建端到端的抓取策略网络,实现从视觉感知到关节指令的精准映射。
背景与挑战
背景概述
在机器人学习领域,模仿学习与行为克隆技术依赖于高质量、多模态的演示数据集来训练灵巧操作策略。pick0430p4数据集由Sendera团队于近期创建,基于LeRobot框架构建,旨在为机械臂抓取任务提供标准化训练资源。该数据集聚焦于单一任务(物体拾取),包含25个演示片段、总计11429帧数据,通过三台全局摄像头(Cam1_global、Cam2_global、Cam3_global)以400×400分辨率、30帧每秒的帧率同步采集视觉信息,同时记录5维动作指令(包括三维平移、旋转及夹爪控制)与状态信息。该数据集采用Apache-2.0许可协议开放,其结构与LeRobot规范兼容,为机器人操作技能的迁移学习与模型泛化研究提供了可复用的基准。
当前挑战
当前机器人操作数据集面临的核心挑战包括:数据采集的成本与多样性限制——仅25个演示片段的规模难以覆盖真实场景中物体形状、光照、位姿的多样性;视觉与动作模态的耦合难题——三目摄像头提供的多视角信息虽有助于缓解遮挡,但高维动作空间(5自由度)与低维状态表示(单一虚拟状态)之间的语义鸿沟加大了策略学习的难度;此外,parquet与AV1编码格式存储虽高效,却对实时推理的兼容性提出要求。构建过程中,保持动作序列的时序一致性与相机标定的精确性亦构成隐性障碍,尤其是在仅有单任务标注的情景下,模型的泛化边界亟待验证。
常用场景
经典使用场景
在机器人学习领域中,pick0430p4数据集专为机械臂抓取任务而构建,其核心应用场景聚焦于模仿学习与行为克隆算法的训练与评估。通过采集CTR机器人执行单一抓取任务的25段演示轨迹,该数据集提供了包含5维动作向量(三轴平移、旋转及夹爪指令)与三路全局摄像头视角的高清视频流(400×400分辨率),为端到端策略学习提供了多模态对齐的时序样本。研究者可借助LeRobot框架,利用该数据集的视觉观测与动作标签训练可泛化的抓取策略,验证模型在有限演示下的任务完成能力。其紧凑的11429帧规模与标准化数据格式,特别适合作为基线测试平台,用于对比不同网络架构(如扩散策略、变换器或卷积网络)在少样本模仿学习中的泛化性能。
解决学术问题
该数据集针对机器人操作学习中数据采集成本高昂与策略泛化性不足的学术难题提供了标准化解决方案。传统机器人教学通常需要手动设计详尽的状态空间或依赖昂贵仿真环境,而pick0430p4通过真实物理场景下的少量人类演示(25个episode),直接支持了从视觉观察到动作映射的端到端学习范式研究。它有助于探究核心科学问题:在极低数据量(约1万帧)条件下,如何通过数据增强、隐空间正则化或多任务预训练等方式提升策略对抓取物体姿态、光照变化等现实干扰的鲁棒性。其意义在于降低了机器人学习研究的准入门槛,使得实验室可复现的对比实验成为可能,推动了触觉-视觉融合、时序注意力机制等前沿方法在该实证平台上的迭代验证。
衍生相关工作
该数据集催生了一系列围绕低数据依赖性与多模态表示学习的重要工作。基于其提供的演示轨迹,研究者开发了‘视觉-动作隐式条件化’方法,利用扩散模型对抓取动作分布进行建模,显著提升了动作序列的平滑度;同时衍生出‘跨视角特征对齐’框架,通过对比学习强制不同摄像头视角下共享的语义特征,增强策略在遮挡场景下的可靠性。此外,部分工作探索了在100MB级数据规模下的元学习范式,将25个抓取片段视为任务支持集,训练快速适应新物体属性的模型初始化参数。这些成果不仅深化了对操作技能泛化规律的理解,还反向推动了该数据集升级版(如引入柔性物体或动态目标场景)的设计需求,形成了‘数据-模型-评估’的闭环创新生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作