zeuzei/p10

Name: zeuzei/p10
Creator: zeuzei
Published: 2026-05-01 08:10:26
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/zeuzei/p10

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，属于机器人领域。数据集包含10个episodes，5980帧，1个任务。数据文件格式为parquet，视频文件格式为mp4。特征包括动作（6个关节位置）、观察状态（6个关节位置）、顶部和手腕图像（480x640x3）、时间戳、帧索引、episode索引等。数据集的fps为30，总数据文件大小为100MB，视频文件大小为200MB。

This dataset was created by LeRobot and belongs to the robotics domain. It contains 10 episodes, 5980 frames, and 1 task. The data files are in parquet format, and the video files are in mp4 format. Features include actions (6 joint positions), observation states (6 joint positions), top and wrist images (480x640x3), timestamps, frame indices, episode indices, etc. The dataset has an fps of 30, with a total data file size of 100MB and a video file size of 200MB.

提供机构：

zeuzei

搜集汇总

数据集介绍

构建方式

p10数据集依托LeRobot框架构建，旨在为机器人操作任务提供标准化训练数据。该数据集通过模拟或真实环境中的“so_follower”机器人采集而成，共计包含10个独立回放片段（episodes），总帧数达5980帧，涵盖单一操作任务。数据以Parquet格式存储动作与状态序列，同时配备AV1编码的顶部与腕部摄像头视频流，分辨率统一为640×480，帧率为30 FPS。数据按chunk分片组织，便于高效加载与分布式处理。训练划分将全部10个episode用于模型学习，体现了紧凑而完整的构建思路。

特点

p10数据集最显著的特点在于其多模态融合与标准化设计。每个时间步均记录6维动作向量（肩部、肘部、腕部及夹爪姿态）与对应的关节状态观测，形成闭环控制所需的状态-动作对。视觉部分提供双视角同步视频（顶部与腕部），为视觉运动策略学习提供丰富输入。数据集规模精巧——含5980帧、约300MB的存储体量，兼顾了样本多样性与计算效率。此外，统一的LeRobot格式与清晰的元信息（如编码、帧率、通道数）使其具备良好的可复现性与跨平台兼容性。

使用方法

使用p10数据集时，推荐借助LeRobot的专用可视化工具（通过HuggingFace Spaces交互）快速浏览回放片段，直观理解机器人运动模式。开发阶段，可基于LeRobot的PyTorch DataPipeline接口直接加载Parquet与视频文件，按时间窗口或chunk索引采样数据；6维动作空间与双摄像头图像张量即可作为策略网络的输入输出。由于数据已预定义训练集（前10个episode），用户无需额外划分，即可立即开展模仿学习或行为克隆实验。也可将此数据集作为多模态机器人基准的一部分，对比不同控制策略的性能差异。

背景与挑战

背景概述

在机器人学习领域，真实世界的数据获取往往代价高昂且难以规模化，这限制了许多基于模仿学习或强化学习算法的泛化能力。p10数据集诞生于这一背景下，由研究人员利用LeRobot开源框架构建，旨在为机器人操作任务提供标准化的演示数据。该数据集创建于近年，主要集中在单一任务——即通过六轴机械臂（so_follower）执行抓取或操作动作，记录了10个完整回合、总计近6000帧的高频（30FPS）交互数据。其核心研究问题在于如何通过紧凑的、包含多模态观测（如顶部和腕部摄像头视频、关节状态与动作序列）的数据集，来推动机器人从示教中高效学习。p10虽规模不大，但其以Parquet和压缩视频格式存储的结构化设计，以及APache-2.0许可的开源精神，为社区在低资源环境下验证算法、探索机器人学习的数据效率提供了重要基准。

当前挑战

p10数据集面临的挑战首先源于其解决的领域瓶颈：机器人操作任务的复杂性要求模型从高维视觉和连续动作空间中提取稳健的映射关系，而当前数据集仅包含10个回合的单一任务数据，样本量严重不足，难以支撑深度学习方法对数据多样性和覆盖度的基本需求，容易导致过拟合和泛化失败。在构建过程中，挑战同样显著：基于LeRobot的采集流程依赖于精确的遥操作或预设轨迹，但仅有单台设备（so_follower）参与，缺乏不同硬件配置或环境条件下的对照数据，使得动作标签和视觉观测的噪声与偏移难以被充分估计和校正。此外，视频和状态数据虽以结构化格式保存，但原始帧率和分辨率限制（640×480，30FPS）在处理高速铰链运动或精细抓取时可能引发时间错位问题，而尚未公开的论文或详细元信息进一步增加了数据复用和可复现的难度。

常用场景

经典使用场景

在机器人学习与操控领域，p10数据集是探索模仿学习与行为克隆范式的理想起点。该数据集记录了单任务场景下共计10个完整的操作轨迹，包含5980帧由so_follower机器人采集的高保真状态与动作序列。借助LeRobot框架的标准化流水线，研究者可便捷地利用其提供的6维关节空间动作指令与对应的观测状态，以及来自顶部与腕部双视角的30帧每秒视觉信息。这些多模态输入为训练从像素到关节指令的端到端策略提供了完备的监督信号，使其成为验证基础操作学习算法，尤其是在数据效率与泛化边界研究中的标准基准。

衍生相关工作

基于p10数据集的特性，其衍生的经典工作主要聚焦于数据增强与策略迁移两大方向。一方面，研究者通过引入平滑扰动向现有轨迹注入噪声，探索了如何利用数据扩充技术提升策略在边界状态下的鲁棒性，或是利用图像掩码与背景替换增强视觉表示的泛化能力。另一方面，该数据集催生了一系列关于跨本体迁移的研究，例如将由so_follower采集的演示知识运用至不同构型的机械臂上，检验隐式运动学理解与关节解耦表示的通用性。此外，结合扩散策略与Transformer架构的尝试也在此类小规模数据集上得到了实践，为后续更大规模、多任务的机器人预训练研究铺设了基石。

数据集最近研究