simvla_task1

Hugging Face2026-01-18 更新2026-01-19 收录

下载链接：

https://huggingface.co/datasets/chomeed/simvla_task1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人学数据集，包含丰富的机器人控制与观测数据。数据集结构包括：电机位置（qpos）、观测状态（observation.state）、来自前视和左右腕部摄像头的图像（observation.images）、动作指令（action）、四元数动作（action_quat）以及时间戳和索引信息。数据以parquet文件格式存储，包含400个训练片段，总计286265帧，帧率为20fps。视频数据分辨率为240x320，采用AV1编码。数据集详细记录了17个电机通道的位置数据、23维的观测状态向量和动作向量，适用于机器人控制算法训练和仿真研究。

This robotics dataset is constructed using LeRobot, and contains a rich collection of robot control and observation data. The dataset structure includes: motor positions (qpos), observation states (observation.state), images from the front-facing camera and left/right wrist cameras (observation.images), action commands (action), quaternion actions (action_quat), as well as timestamp and index information. The data is stored in Parquet file format, consisting of 400 training segments with a total of 286,265 frames and a frame rate of 20 fps. The video data has a resolution of 240×320 and is encoded with AV1. The dataset comprehensively records position data from 17 motor channels, as well as 23-dimensional observation state vectors and action vectors, making it suitable for robot control algorithm training and simulation research.

创建时间：

2026-01-16

原始信息汇总

数据集概述

基本信息

数据集名称: simvla_task1
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总情节数: 400
总帧数: 286,265
总任务数: 1
数据块大小: 1000帧
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 20 FPS
数据分割: 全部400个情节用于训练
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
代码库版本: v3.0

数据特征

数据集包含以下特征：

机器人状态与动作

qpos (关节位置)
- 数据类型: float32
- 形状: [17]
- 描述: 包含左/右机械臂各7个关节（偏航、俯仰、肘部、腕部俯仰、腕部偏航、滚动、夹爪）以及基座的3个自由度（线性x、线性y、角速度z）的位置信息。
observation.state (观测状态)
- 数据类型: float32
- 形状: [23]
- 描述: 包含左/右机械臂末端执行器的3D位置（x, y, z）、6D旋转表示（r6d_c1x, r6d_c1y, r6d_c1z, r6d_c2x, r6d_c2y, r6d_c2z）、夹爪状态以及基座速度（线性x、线性y、角速度z）。
action (动作)
- 数据类型: float32
- 形状: [23]
- 描述: 动作向量，其结构与observation.state特征完全对应，包含对左/右机械臂末端执行器位置、6D旋转、夹爪以及基座速度（cmd_vel_x, cmd_vel_y, cmd_vel_wz）的控制指令。
action_quat (四元数动作)
- 数据类型: float32
- 形状: [19]
- 描述: 使用四元数（qx, qy, qz, qw）表示旋转的动作向量，包含左/右机械臂末端执行器的3D位置、四元数旋转、夹爪状态以及基座速度指令。

图像观测

observation.images.front (前置摄像头图像)
- 数据类型: video
- 形状: [240, 320, 3] (高，宽，通道)
- 视频信息: 帧率30 FPS，编码格式AV1，像素格式yuv420p，非深度图，无音频。
observation.images.wrist_left (左腕部摄像头图像)
- 数据类型: video
- 形状: [240, 320, 3] (高，宽，通道)
- 视频信息: 帧率30 FPS，编码格式AV1，像素格式yuv420p，非深度图，无音频。
observation.images.wrist_right (右腕部摄像头图像)
- 数据类型: video
- 形状: [240, 320, 3] (高，宽，通道)
- 视频信息: 帧率30 FPS，编码格式AV1，像素格式yuv420p，非深度图，无音频。

索引与元数据

timestamp (时间戳)
- 数据类型: float32
- 形状: [1]
frame_index (帧索引)
- 数据类型: int64
- 形状: [1]
episode_index (情节索引)
- 数据类型: int64
- 形状: [1]
index (索引)
- 数据类型: int64
- 形状: [1]
task_index (任务索引)
- 数据类型: int64
- 形状: [1]

补充说明

主页链接: [More Information Needed]
论文链接: [More Information Needed]
引用信息: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量数据集的构建是推动算法发展的基石。simvla_task1数据集依托LeRobot平台，通过采集双足机器人执行单一任务时的多模态交互数据而形成。该数据集包含400个完整交互片段，总计超过28万帧数据，以分块存储的Parquet格式组织，每块约1000帧，确保了数据的高效访问与处理。数据采集过程中，机器人关节位置、观测状态、多视角视觉信息及动作指令被同步记录，并以20帧每秒的速率进行结构化封装，为机器人模仿学习与行为克隆研究提供了坚实的实验基础。

特点

该数据集在机器人操作任务中展现出鲜明的多模态特性。其核心特征在于融合了高维关节状态、三维空间位姿以及多路视觉感知信息，其中关节位置与观测状态分别以17维和23维向量精确刻画机器人运动学特征。视觉数据涵盖前视与左右腕部视角，分辨率统一为320x240，以30帧每秒的AV1编码视频流呈现，增强了环境感知的时空连续性。数据集还提供两种动作表示形式——23维欧拉角控制与19维四元数控制，支持不同算法框架的需求。所有数据均附带时间戳与索引信息，便于时序建模与轨迹分析。

使用方法

为便于研究者高效利用该数据集，数据以分块Parquet文件形式存储，可通过标准数据加载工具直接读取。用户可依据episode_index与frame_index快速定位特定交互片段或时序帧，实现精细化的轨迹切片与分析。多路视频数据与状态数据通过统一索引对齐，支持端到端的视觉-动作联合建模。在机器人行为模仿任务中，该数据集可直接用于训练基于状态或图像的策略网络；亦可作为基准测试集，评估不同算法在相同任务下的泛化性能与学习效率。数据集遵循Apache 2.0许可，允许广泛的学术与工程化应用。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的真实世界交互数据对于推动模仿学习与强化学习算法的进步至关重要。simvla_task1数据集由HuggingFace的LeRobot项目创建，旨在为双臂移动机器人的复杂操作任务提供丰富的多模态演示数据。该数据集收录了400个完整任务片段，涵盖超过28万帧的同步记录，包括机器人关节状态、多视角视觉观测以及对应的动作指令，其结构化设计为研究端到端的机器人策略学习提供了坚实基础。通过整合高维状态空间与视觉信息，该数据集致力于解决真实环境下机器人泛化能力与自主决策的核心难题，为社区探索数据驱动的机器人控制范式贡献了关键资源。

当前挑战

simvla_task1数据集所针对的机器人操作任务，面临高维连续动作空间与复杂环境感知的协同建模挑战，要求算法能够从多模态输入中提取有效特征并生成精确、稳定的控制序列。在数据构建过程中，采集大规模真实机器人交互数据涉及硬件同步、传感器校准与数据存储等多重工程难题，确保多路视频、状态信息与动作指令的时间对齐尤为关键。此外，数据集的规模与多样性仍需扩展，以覆盖更广泛的任务场景与环境扰动，从而提升学习模型的鲁棒性与泛化性能。

常用场景

经典使用场景

在机器人学习领域，simvla_task1数据集以其丰富的多模态数据为机器人操作任务提供了经典的应用场景。该数据集通过整合双机械臂的关节位置、状态观测、多视角视觉信息以及动作指令，为模仿学习和强化学习算法提供了高质量的演示轨迹。研究者能够利用这些数据训练机器人执行复杂的双臂协调操作，例如物体抓取、放置或装配任务，从而推动机器人自主执行日常操作的能力发展。

解决学术问题

simvla_task1数据集有效应对了机器人学习研究中数据稀缺与多样性的挑战。它通过提供大规模、结构化的真实世界交互数据，解决了模仿学习中演示数据获取困难的问题，并为离线强化学习算法提供了可靠的训练基础。该数据集支持对高维状态-动作空间的理解，促进了多模态感知与运动规划的结合研究，对提升机器人在非结构化环境中的适应性与泛化能力具有重要学术意义。

衍生相关工作

围绕simvla_task1数据集，已衍生出一系列专注于机器人模仿学习与策略泛化的经典研究工作。这些工作通常利用其多模态序列数据，开发端到端的视觉运动策略网络、研究跨任务的行为克隆方法，以及探索基于模型的强化学习在机器人控制中的应用。该数据集作为LeRobot生态系统的一部分，也促进了开源机器人学习框架的发展，为社区提供了可复现的基准测试平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集