eval_smolvla_multi_pick

Hugging Face2026-01-27 更新2026-01-28 收录

下载链接：

https://huggingface.co/datasets/kimtaeyeong1229/eval_smolvla_multi_pick

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人学数据集，采用Apache-2.0许可证。数据集包含机器人动作和观察状态的数据，以及来自两个摄像头的图像数据。数据以parquet文件格式存储，视频文件以mp4格式存储。数据集结构包括动作特征（6个浮点型关节位置）、观察状态（6个浮点型关节位置）、两个摄像头图像（480x640x3的视频数据）以及时间戳、帧索引、片段索引等元数据。数据总大小为100MB（数据文件）和200MB（视频文件），帧率为30fps。该数据集适用于机器人控制、感知和相关机器学习任务的研究与开发。

This robotics dataset was developed using LeRobot and is licensed under the Apache-2.0 license. The dataset contains data of robot actions and observation states, as well as image data from two cameras. The data is stored in Parquet file format, while the video files are stored in MP4 format. The dataset structure includes action features (6 floating-point joint positions), observation states (6 floating-point joint positions), two camera images (480x640x3 video data), and metadata such as timestamps, frame indices, and episode indices. The total size of the dataset is 100MB (data files) and 200MB (video files), with a frame rate of 30fps. This dataset is suitable for research and development in robot control, perception, and related machine learning tasks.

创建时间：

2026-01-26

原始信息汇总

数据集概述

基本信息

数据集名称: eval_smolvla_multi_pick
托管平台: Hugging Face
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集来源

该数据集使用 LeRobot 创建。

数据集结构

数据文件格式: Parquet
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 30 FPS

数据特征

动作: 包含6个浮点数值，分别对应肩部平移、肩部升降、肘部弯曲、腕部弯曲、腕部旋转和夹爪的位置。
观测状态: 包含6个浮点数值，与动作的特征名称和形状相同。
观测图像（相机1）: 视频格式，分辨率为480x640，3通道。
观测图像（相机2）: 视频格式，分辨率为480x640，3通道。
时间戳: 单精度浮点数。
帧索引: 64位整数。
回合索引: 64位整数。
数据索引: 64位整数。
任务索引: 64位整数。

元数据信息

代码库版本: v3.0
机器人类型: so_follower
总回合数: 0
总帧数: 0
总任务数: 0
数据分割: 未提供。

引用信息

论文: 未提供。
主页: 未提供。
BibTeX引用格式: 未提供。

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集对于算法训练与评估至关重要。eval_smolvla_multi_pick数据集依托LeRobot平台构建，其数据以分块形式组织，每个数据块包含多个Parquet格式文件，并辅以相应的MP4视频文件。数据采集过程涉及so_follower型机器人，以30帧每秒的速率记录多视角图像、关节状态与动作指令，确保了时序与空间信息的同步性与完整性。

特点

该数据集在机器人操作任务中展现出多维度的特征表征。其核心特征包括六维关节位置的动作与状态向量，以及来自双摄像头的480x640分辨率RGB图像流，共同构成了丰富的感知-动作对。数据集中还嵌入了时间戳、帧索引与任务索引等元数据，支持对长时程任务进行细粒度分析与回放，为模仿学习与强化学习提供了结构化的输入输出范例。

使用方法

研究者可利用该数据集进行机器人策略的离线评估与验证。通过加载指定的Parquet数据块，可以访问按时间步组织的观测图像、机器人状态及对应动作序列。视频文件可用于直观可视化任务执行过程。数据集的分块存储设计便于流式读取与并行处理，适用于训练视觉-动作映射模型，或在仿真环境中复现真实机器人行为以进行算法对比分析。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的数据集是推动算法进步的关键基石。eval_smolvla_multi_pick数据集依托于LeRobot开源框架构建，专注于机器人操作任务，特别是多视角视觉语言动作（VLA）的评估场景。该数据集旨在为机器人模仿学习与强化学习提供丰富的多模态交互轨迹，其核心研究问题在于如何有效整合视觉观察、关节状态与动作指令，以训练能够理解复杂任务语义并执行精细操作的智能体。尽管其具体创建时间与主要研究人员信息在公开资料中尚未详尽披露，但作为Apache 2.0许可下的开放资源，它显著促进了机器人社区在真实世界技能泛化与评估标准化方面的探索。

当前挑战

该数据集致力于应对机器人操作中多物体拾取与放置任务的评估挑战，这类任务要求智能体在动态环境中依据视觉与状态信息做出连续、精确的决策。其构建过程面临多重困难：首先，多模态数据（如双摄像头视频、关节位置、时间戳）的同步采集与对齐需要精密的硬件同步与标定技术，以确保数据的一致性；其次，大规模真实机器人交互数据的收集成本高昂，涉及机器人硬件损耗、场景搭建与人工示范的复杂性；再者，数据的高维度特性（如图像序列与连续动作空间）对存储效率、预处理流水线及后续算法的计算负载提出了严峻考验。

常用场景

经典使用场景

在机器人学习领域，eval_smolvla_multi_pick数据集为多视角视觉语言动作模型提供了关键验证平台。该数据集通过集成双摄像头视觉观测与六自由度机械臂动作序列，支持研究者评估模型在复杂抓取任务中的泛化能力。经典使用场景涉及模拟或真实环境下的物体识别与操作，模型需依据视觉输入生成精确的关节控制指令，以完成多物体挑选任务，这推动了视觉-动作映射技术的精细化发展。

衍生相关工作

围绕该数据集，学术界衍生出多项经典研究工作，主要集中在视觉语言动作模型的架构创新与训练范式上。例如，研究者利用其多模态特性开发了注意力机制增强的决策网络，提升了动作预测的时空一致性。此外，基于数据集的跨任务迁移学习框架也被广泛探索，推动了机器人技能组合与零样本泛化能力的前沿进展，为后续大规模机器人数据集构建奠定了方法论基础。

数据集最近研究