test_dataset_2scenes

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/nodogoro/test_dataset_2scenes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为机器人学任务设计的，特别适用于涉及pika_gripper机器人的应用场景。数据集采用Apache-2.0许可证，包含3个总片段、396帧和1个总任务。数据以parquet格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集包含多模态数据，如动作数据（14维浮点数组，描述机器人的位置、旋转和夹爪宽度）、观察数据（32维浮点数组，包括编码器度数、IMU数据和夹爪状态）以及多个视频流（RGB和深度图像，分辨率分别为480x848和1024x1024）。数据集适用于机器人控制、行为克隆和强化学习等任务。

创建时间：

2026-04-25

原始信息汇总

数据集概述

数据集名称: test_dataset_2scenes
许可证: Apache-2.0
任务类别: 机器人学
所用框架: LeRobot

数据集规模

指标	数值
总片段数	3
总帧数	396
总任务数	1
帧率 (FPS)	30
数据文件大小	100 MB
视频文件大小	200 MB

训练集划分: train (0:3)，即全部3个片段用于训练

数据特征

数据集包含两类特征：动作（action） 和 观测（observation），后者包括状态与多视角图像。

动作（action）

数据类型: float32
维度: 14维
描述: 控制两个机械臂（arm1 和 arm2）的末端位置（x, y, z）、旋转（rx, ry, rz）以及夹爪宽度（grip_width）。

观测状态（observation.state）

数据类型: float32
维度: 32维
描述: 每个机械臂的状态信息，包括编码器角度（enc_deg）、IMU加速度与角速度（ax, ay, az, gx, gy, gz）、末端位姿（位置+四元数）、夹爪开启状态与距离。

观测图像（observation.images）

多视角图像以视频形式存储，参数如下：

RealSense RGB 图像: 分辨率 480×848，H.264 编码，30 FPS，无深度。
RealSense 深度图像: 分辨率 480×848，H.264 编码，30 FPS，当前标记为非深度图。
机械臂2 RealSense RGB 与深度: 同上述参数。
场景 RGB 图像: 分辨率 1024×1024，H.264 编码，30 FPS。
场景 RGB 图像 2: 分辨率 1024×1024，H.264 编码，30 FPS。

其他特征

timestamp: float32，时间戳
frame_index: int64，帧索引
episode_index: int64，片段索引
index: int64，全局索引
task_index: int64，任务索引

机器人平台

机器人类型: pika_gripper（双机械臂夹爪系统）

数据组织

数据文件路径: data/chunk-{chunk_index}/file-{file_index}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index}/file-{file_index}.mp4
元信息文件: meta/info.json

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是驱动智能体习得复杂操作技能的基石。test_dataset_2scenes 数据集依托于 LeRobot 框架构建，专为双机械臂协同操作任务而设计。该数据集以 pika_gripper 型机器人为采集平台，覆盖两个不同场景下的操作数据，包含3个完整 episode 和396帧有效样本。数据以 Parquet 格式存储，并配合同步录制的多视角视频文件。数据集遵循 Apache-2.0 开源协议发布，便于研究社区复现与扩展。

特点

该数据集最显著的特征在于其多模态异构数据融合能力。动作空间包含14维连续控制量，覆盖双臂位置与夹爪开度；观测空间则整合了32维状态信息，涉及关节编码器、惯性测量单元及末端位姿等传感器数据。视觉模态尤为丰富，提供来自机械臂末端和场景的六路 RGB 视频流，分辨率涵盖848×480至1024×1024像素。所有数据以30 FPS 同步采集，确保了时序对齐的精确性。

使用方法

研究者可通过 LeRobot 库便捷加载与可视化该数据集。利用 Hugging Face Spaces 提供的交互式预览工具，用户能直接观察样本的帧序列与动作轨迹。在模型训练环节，建议将数据集按标准框架划分为训练集，利用 features 字段中的 action 与 observation 键构建 imitation learning 或 reinforcement learning 的输入输出对。视频数据可采用时间维度的裁剪与增强策略，以适应不同算法的输入尺寸需求。

背景与挑战

背景概述

在机器人学习领域，模仿学习通过从专家演示中提取策略，已成为赋予机器人复杂操作能力的重要范式。该数据集由研究者nodogoro基于LeRobot框架创建，聚焦于双机械臂（pika_gripper型机器人）在两种场景下的协同操作任务。其核心研究问题在于如何从多模态观测数据（包括关节状态、惯性测量单元数据、多视角RGB视频及深度图）中学习精准的动作映射，以应对环境动态变化与任务多样性。尽管该数据集规模有限（仅3个演示片段、396帧），但其精细化的特征设计（如14维动作空间与32维状态空间）为小样本策略学习提供了基准，推动了轻量化机器人数据集在模仿学习中的探索价值。

当前挑战

该数据集所解决的领域挑战在于双机械臂协同操作中的策略泛化难题。在多任务场景下，机器人需从异构传感器输入（如4个Realsense摄像头与2个场景摄像头的高分辨率视频流）中提取时空一致性特征，避免过拟合于单一场景的视角或光照条件。构建过程中，数据集面临多模态数据同步的工程挑战，需确保0.033秒采样间隔内关节编码器读数、IMU角速度与视觉帧的精确对齐。此外，仅100MB的数据文件与200MB视频文件在有限样本下需平衡表示复杂度与存储效率，这对数据增强技术与迁移学习的鲁棒性提出了严苛要求。

常用场景

经典使用场景

在机器人学习与操控领域，test_dataset_2scenes数据集为多机械臂协同作业与场景理解研究提供了宝贵的基础资源。该数据集包含由双机械臂（pika_gripper）在复杂环境中执行的任务轨迹，采集了来自多个视角的RGB视觉信息（realsense_rgb、scene_rgb等）以及高维度状态与动作数据。其经典使用场景集中在基于模仿学习的机器人技能获取，研究者可利用该数据集训练端到端的神经网络模型，使机器人从人类演示中学习精细的抓取、放置与双臂协调动作，从而在动态场景中实现自主操控。

衍生相关工作

test_dataset_2scenes数据集的出现催生了一系列经典学术工作。基于其数据结构特点，研究者提出了多视图特征融合的模仿学习框架，如使用跨模态注意力机制对齐视觉与状态表示。同时，该数据集推动了离线强化学习与数据增强方法的进步，衍生出结合对抗扰动与域随机化的策略优化算法，以提升模型在未见场景中的鲁棒性。围绕其双臂协作特性，还涌现出基于图神经网络的协同关系建模工作，实现了对双机械臂运动轨迹的协同性约束学习。这些工作不仅丰富了机器人学习领域的方法论体系，也为后续更复杂场景数据集的设计提供了标准化参考。

数据集最近研究