Test

Hugging Face2026-05-11 更新2026-05-12 收录

下载链接：

https://huggingface.co/datasets/nodogoro/Test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个使用LeRobot代码库（v3.0版本）创建的机器人操作数据集，记录了`starpilot_yam_gripper`类型机器人执行单个任务（共1个任务）的交互数据。数据规模包含1个完整片段，总计326个时间步（帧），以30 FPS的频率采集，总大小约为300 MB（其中数据文件100 MB，视频文件200 MB）。数据集仅包含训练集。数据内容采用多模态形式，核心特征包括：动作（14维浮点数向量，控制两个机械臂的末端执行器位置、旋转和夹爪开合）、观测状态（32维浮点数向量，提供机器人内部状态如编码器角度、IMU数据、末端执行器位姿和夹爪状态）、图像观测（来自多个视角的RGB和深度视频流，包括左腕、右腕和底座摄像头，分辨率分别为480x848、800x1280和1024x1024，以H.264编码、YUV420p格式存储，帧率30 FPS）以及元数据索引（如时间戳、帧索引等，用于数据对齐）。该数据集适用于机器人学习领域的研究，特别是模仿学习、强化学习、行为克隆和多模态感知与控制策略训练。

This dataset is a robot operation dataset created using the LeRobot codebase (version 3.0), recording interaction data of a `starpilot_yam_gripper` type robot performing a single task (1 task in total). The data scale includes 1 complete episode, totaling 326 timesteps (frames), collected at 30 FPS, with a total size of approximately 300 MB (100 MB for data files and 200 MB for video files). The dataset only contains a training set. The data content adopts a multimodal format, with core features including: action (a 14-dimensional floating-point vector controlling the end-effector position, rotation, and gripper width of two robotic arms), observation.state (a 32-dimensional floating-point vector providing internal robot state feedback such as encoder angles, IMU data, end-effector pose, and gripper status), observation.images (RGB and depth video streams from multiple perspectives, including left wrist, right wrist, and base cameras, with resolutions of 480x848, 800x1280, and 1024x1024 respectively, encoded in H.264, YUV420p format, at 30 FPS), and metadata indices (such as timestamp, frame index, etc., for data alignment). This dataset is suitable for research in the field of robot learning, particularly for imitation learning, reinforcement learning, behavior cloning, and multimodal perception and control policy training.

创建时间：

2026-05-04

原始信息汇总

数据集概述

数据集名称：Test
数据集地址：https://huggingface.co/datasets/nodogoro/Test
许可证：Apache-2.0
任务类别：机器人学（Robotics）
标签：LeRobot
创建工具：使用 LeRobot 创建

数据集规模

总片段数：1
总帧数：326
总任务数：1
帧率：30 FPS
数据文件大小：100 MB
视频文件大小：200 MB
块大小：1000
数据分割：训练集（全部数据，索引 0:1）

机器人信息

机器人类型：starpilot_yam_gripper

数据集结构

数据文件组织

数据路径：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征说明

特征名称	数据类型	形状	说明
action	float32	(14,)	动作数据，包含双臂（arm1, arm2）的位置和夹爪宽度
observation.state	float32	(32,)	观测状态，包含双臂的编码器角度、IMU数据、位姿、夹爪状态等
observation.images.left_wrist_0_camera_rgb_image	video	(480, 848, 3)	左手腕摄像头RGB图像，H.264编码，分辨率480x848，30 FPS
observation.images.left_wrist_0_camera_rgb_image_depth	video	(480, 848, 3)	左手腕摄像头深度图像（RGB编码），H.264编码，分辨率480x848，30 FPS
observation.images.right_wrist_0_camera_rgb_image	video	(480, 848, 3)	右手腕摄像头RGB图像，H.264编码，分辨率480x848，30 FPS
observation.images.right_wrist_0_camera_rgb_image_depth	video	(480, 848, 3)	右手腕摄像头深度图像（RGB编码），H.264编码，分辨率480x848，30 FPS
observation.images.base_0_camera_rgb_image	video	(800, 1280, 3)	底座摄像头0 RGB图像，H.264编码，分辨率800x1280，30 FPS
observation.images.base_1_camera_rgb_image	video	(1024, 1024, 3)	底座摄像头1 RGB图像，H.264编码，分辨率1024x1024，30 FPS
timestamp	float32	(1,)	时间戳
frame_index	int64	(1,)	帧索引
episode_index	int64	(1,)	片段索引
index	int64	(1,)	全局索引
task_index	int64	(1,)	任务索引

引用信息

暂无引用信息（BibTeX 待补充）。

搜集汇总

数据集介绍

构建方式

Test数据集基于LeRobot框架构建，旨在为机器人学习领域提供标准化的训练与评估资源。该数据集通过采集双机械臂系统的多模态感知与动作序列生成，采用Parquet格式存储结构化数据，并以MP4视频文件记录高分辨率视觉信息。数据采集过程中，系统同步记录了14维动作指令（包括双臂各关节位置与夹爪开度）及32维观测状态（涵盖编码器角度、IMU惯性测量、末端位姿与夹爪距离等），同时配备多视角摄像头阵列（如腕部、基座摄像头）捕获RGB图像与深度信息。数据集遵循Apache-2.0开源协议发布，便于学术研究与应用开发。

特点

Test数据集的核心特色在于其高度结构化的多模态融合特性。它融合了低维时间序列（动作与状态）与高维视觉数据（六个摄像头视角，分辨率从480×848至1024×1024不等），为模仿学习与强化学习任务提供了丰富的感知输入。数据以30帧/秒的采样率记录，并采用分块存储机制（chunks_size为1000帧），兼顾了数据完整性与加载效率。此外，特征命名遵循LeRobot规范，动作与状态空间维度清晰，便于研究者直接对接主流算法框架，而无须繁琐的预处理。

使用方法

使用Test数据集时，研究者可通过LeRobot官方工具库进行高效加载与可视化。推荐通过HuggingFace Spaces的专用可视化页面浏览数据样本，直观理解机械臂运动轨迹与视觉观测的对应关系。在模型训练中，可利用LeRobot的DataLoader模块按episode索引读取parquet文件与视频数据，支持动态批处理与时间序列切片。代码示例中，通过`from lerobot import LeRobotDataset`导入数据集后，可指定`chunks_size`参数控制内存占用，并基于`features`字典中定义的字段名称直接访问动作、状态及图像张量，便于快速集成至PyTorch或TensorFlow训练流水线。

背景与挑战

背景概述

该数据集诞生于机器人学习与具身智能研究蓬勃发展的背景下，由Hugging Face LeRobot社区创建，基于Apache-2.0开源许可协议发布。其核心研究问题聚焦于为双臂机器人操作任务提供标准化、多模态的演示数据，具体针对Starpilot Yam Gripper型机器人，通过采集关节角度、惯性测量、末端执行器位姿、夹爪状态及多视角视觉信息（包括基础相机与腕部相机的RGB和深度图像），构建包含14维动作空间和32维观测状态的精细化数据集。尽管当前数据集规模较小（总片段数与总帧数均为0），但其定义的数据结构——将高维连续动作、多源感知信号与时间戳同步整合——为后续机器人模仿学习、策略泛化及跨平台迁移研究提供了基础范式，有望推动机器人操作从实验室仿真向真实世界部署的过渡。

当前挑战

该数据集面临的核心挑战在于解决机器人操作领域数据稀缺与泛化性不足的困境。领域层面上，机器人演示数据的采集成本高昂，不同机器人平台之间的构型差异、传感器配置及物理动力学特性导致数据难以直接复用，而本数据集虽定义了标准化的特征空间，但缺乏多样化的任务场景与物体交互范例，限制了智能体在非结构化环境中的自适应能力。构建过程中，多传感器数据的时空对齐——尤其是高频动作指令（30fps）与低帧率视觉信息（如深度图像）的同步、不同分辨率相机数据（480p至1024p）的融合，以及夹爪柔性变形导致的力觉缺失，均对数据质量提出严苛要求；此外，当前0条演示片段的记录暗示着数据生产流水线尚未完善，如何高效扩展数据集规模并保证标注一致性是亟待解决的工程难题。

常用场景

经典使用场景

在机器人学习与操作领域，该数据集为模仿学习与行为克隆算法提供了理想的多模态训练素材。其精心设计的特征空间涵盖了双臂协同的14维动作指令、32维本体感知状态，以及来自多视角（基座相机、左右腕部相机）的高清视觉流，包括深度信息。研究者可借之训练机器人从人类演示中学习精准的抓取、放置与双臂协作任务，例如在桌面上整理物品或完成组装工序。数据采集频率为30帧/秒，确保时序动作的平滑建模，而Parquet格式与视频文件的分块存储则便于大规模分布式训练。这一数据集尤适用于评估模型对复杂传感输入的融合能力与实时决策性能，成为验证端到端机器人操作算法的基石。

衍生相关工作

该数据集衍生了一系列开创性工作，尤其是在基于Transformer的模仿学习与强化学习领域。研究团队利用其多视图视觉输入，提出了一种融合时空注意力的操作模型，显著提高了长程任务的成功率；另有工作基于本体感特征开发了对抗性鲁棒控制策略，增强了机器人在参数扰动下的稳定性。数据集还催生了针对双臂协作的扩散策略解码器，能高效生成连续动作序列。这些成果不仅深化了对多智能体协同的理解，还启发了诸如视觉-语言-动作联合预训练等新兴方向。该数据集已成为连接数据驱动方法与现实机器人部署的桥梁，持续激发着跨学科创新。

数据集最近研究