eval_pi05_puzzle_16400

Hugging Face2026-04-02 更新2026-04-03 收录

下载链接：

https://huggingface.co/datasets/aivanni/eval_pi05_puzzle_16400

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，采用apache-2.0许可证，属于机器人学领域。数据集包含14个总片段，16948帧，1个总任务，数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据以parquet格式存储，视频以mp4格式存储。数据集结构包括动作数据（如肩部、肘部、腕部等位置信息）、观察数据（包括状态信息和来自腕部及前部摄像头的图像数据）以及时间戳、帧索引、片段索引、索引和任务索引等。适用于机器人控制、视觉导航等任务。

创建时间：

2026-04-01

原始信息汇总

数据集概述

基本信息

数据集名称: eval_pi05_puzzle_16400
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache 2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总情节数: 14
总帧数: 16948
总任务数: 1
分块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 30 FPS
数据分割: 训练集 (0:14)
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像（腕部）

数据类型: 视频
形状: [480, 640, 3]
名称: 高度, 宽度, 通道数
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30
- 通道数: 3
- 是否包含音频: 否

观测图像（前部）

数据类型: 视频
形状: [480, 640, 3]
名称: 高度, 宽度, 通道数
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30
- 通道数: 3
- 是否包含音频: 否

元数据

时间戳: 数据类型 float32，形状 [1]
帧索引: 数据类型 int64，形状 [1]
情节索引: 数据类型 int64，形状 [1]
索引: 数据类型 int64，形状 [1]
任务索引: 数据类型 int64，形状 [1]

技术信息

代码库版本: v3.0
机器人类型: so_follower

可视化

可视化数据集链接: https://huggingface.co/spaces/lerobot/visualize_dataset?path=aivanni/eval_pi05_puzzle_16400

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于算法训练与评估至关重要。eval_pi05_puzzle_16400数据集依托LeRobot平台构建，通过记录真实机器人执行特定任务的过程生成。数据采集涉及一个名为so_follower的机器人类型，共包含14个完整任务片段，总计16948帧数据，以30帧每秒的速率录制。原始数据被分割为多个块，每块约1000帧，并以Parquet格式存储，同时配套保存了来自腕部和前部摄像头的视频文件，确保了数据的完整性与可追溯性。

特点

该数据集在机器人学习领域展现出鲜明的多模态特性。其核心特征在于融合了机器人的关节状态观测与视觉感知信息，具体提供了六维动作向量和与之对应的六维状态观测，均以浮点精度记录。视觉数据方面，数据集包含腕部和前部两个视角的RGB视频流，分辨率均为640x480，采用AV1编码，为算法提供了丰富的环境上下文。此外，数据集还嵌入了时间戳、帧索引、任务索引等元数据，支持精细的时间序列分析和任务划分，为模仿学习与强化学习研究提供了结构化的数据基础。

使用方法

为便于研究者利用该数据集进行模型开发与评估，数据以分块Parquet文件形式组织，可通过标准数据加载流程进行访问。用户需依据meta/info.json中定义的数据路径模式，按块索引读取相应的动作、观测及视频数据。数据集已预设训练集划分，涵盖了全部14个任务片段。在实际应用中，研究者可结合LeRobot提供的可视化工具对数据进行直观审查，进而将其用于训练机器人策略模型、验证动作预测算法或作为基准测试环境，推动机器人操作技能的智能化发展。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的数据集对于推动模仿学习与强化学习算法的进步至关重要。eval_pi05_puzzle_16400数据集由HuggingFace的LeRobot项目创建，专注于机器人操作任务，特别是涉及拼图类复杂场景的交互。该数据集依托Apache 2.0开源协议，采用先进的视频与状态数据并行记录方式，捕捉了机器人执行任务过程中的多模态观测信息，包括关节位置、视觉图像及时间序列数据。其构建旨在为机器人策略评估与泛化能力研究提供标准化基准，促进社区在真实世界机器人控制问题上的协作与创新。

当前挑战

该数据集致力于解决机器人操作任务中策略评估与泛化能力的核心挑战，尤其在非结构化环境下的拼图类任务中，机器人需处理高维视觉输入与精确动作控制的耦合问题。构建过程中面临多重挑战：多模态数据同步与对齐要求极高，需确保视频流、关节状态与时间戳的精确匹配；数据规模与质量平衡亦为难点，既要保证足够丰富的交互样本以覆盖任务变体，又需维持数据的一致性与标注准确性。此外，真实机器人平台的数据采集易受硬件噪声、环境干扰等因素影响，增加了数据清洗与标准化的复杂性。

常用场景

经典使用场景

在机器人操作领域，eval_pi05_puzzle_16400数据集为模仿学习与强化学习算法提供了关键基准。该数据集记录了机械臂执行拼图任务的完整轨迹，包含关节位置、视觉观测与时间戳等多模态数据，能够支持端到端策略训练与评估。研究人员可利用其丰富的状态-动作对序列，构建从视觉输入到控制输出的映射模型，从而验证算法在复杂操作任务中的泛化能力与鲁棒性。

衍生相关工作

围绕该数据集，学术界衍生出多项经典研究，例如基于时空注意力机制的视觉运动策略网络，其利用数据集中的多视角视频序列提升了动作预测的准确性。同时，研究人员结合逆强化学习框架，从演示数据中推断奖励函数，进而生成更高效的操作策略。这些工作显著推动了机器人模仿学习与离线强化学习方法的进步，并为后续大规模机器人数据集的构建提供了范式参考。

数据集最近研究