eval_multitask_smolvla

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/johannesschirrmeister/eval_multitask_smolvla

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个名为LeRobot的机器人数据集，包含机器人动作、状态以及两个视角的图像数据。数据集共有2个剧集，1014个帧，1个任务和4个视频，采用Apache-2.0许可。

创建时间：

2025-10-29

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集结构

总任务数: 1
总片段数: 2
总帧数: 1014
总视频数: 4
数据块数: 1
数据块大小: 1000
帧率: 30 fps
数据分割: 训练集 (0:2)
数据格式: Parquet
代码库版本: v2.1
机器人类型: so100_follower

数据特征

动作特征

数据类型: float32
形状: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测

顶部摄像头

数据类型: 视频
形状: [480, 640, 3]
视频规格:
- 高度: 480
- 宽度: 640
- 通道数: 3
- 帧率: 30 fps
- 编解码器: av1
- 像素格式: yuv420p
- 深度图: 否
- 音频: 无

腕部摄像头

数据类型: 视频
形状: [480, 640, 3]
视频规格:
- 高度: 480
- 宽度: 640
- 通道数: 3
- 帧率: 30 fps
- 编解码器: av1
- 像素格式: yuv420p
- 深度图: 否
- 音频: 无

索引特征

时间戳: float32, 形状 [1]
帧索引: int64, 形状 [1]
片段索引: int64, 形状 [1]
索引: int64, 形状 [1]
任务索引: int64, 形状 [1]

文件结构

数据文件路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

搜集汇总

数据集介绍

构建方式

在机器人技术领域，eval_multitask_smolvla数据集通过LeRobot平台系统构建，采用Apache 2.0许可协议。该数据集以SO100跟随机器人为载体，采集了2个完整任务片段，总计1014帧数据，并以30帧每秒的速率记录。数据以分块形式存储于Parquet文件中，每个块包含1000帧，确保了高效的数据管理与访问。

使用方法

研究人员可通过解析Parquet数据文件直接访问多维特征矩阵，利用动作轨迹与视觉观测的同步关系进行算法验证。数据集支持端到端的机器人策略学习，用户可基于帧索引重建任务序列，结合关节状态与双视角图像训练感知控制模型。其标准化格式便于集成至主流机器学习框架，适用于模仿学习与强化学习等研究场景。

背景与挑战

背景概述

eval_multitask_smolvla数据集作为机器人学习领域的新型基准数据集，由HuggingFace的LeRobot项目团队构建，采用Apache 2.0开源协议。该数据集聚焦于多任务机器人操作场景，通过集成六自由度机械臂的关节位置控制与多视角视觉感知数据，旨在推动机器人模仿学习与策略泛化能力的研究。其数据结构包含来自顶部和腕部摄像头的同步视频流，配合精确的动作状态记录，为复杂环境下的机器人行为建模提供了标准化实验平台。

当前挑战

在机器人操作任务领域，该数据集需应对高维连续动作空间与多模态感知融合的核心难题，尤其需解决从异构传感器数据中提取有效表征的挑战。构建过程中面临数据同步精度保障的困难，需确保机械臂关节轨迹与双视角视频流在30Hz采样率下的时序一致性；同时受限于小规模样本特性，仅包含2个完整任务序列，对模型泛化能力提出严峻考验，且原始数据标注信息缺失可能影响监督学习方法的有效性。

常用场景

经典使用场景

在机器人学习领域，eval_multitask_smolvla数据集通过整合多视角视觉观测与关节控制指令，为模仿学习算法提供了标准化测试平台。其包含的顶部与腕部摄像头视频流配合六自由度机械臂动作轨迹，能够有效模拟真实环境中的操作任务，特别适用于验证视觉-动作映射模型的泛化能力。

解决学术问题

该数据集显著缓解了机器人操作任务中样本效率低下的研究困境。通过提供结构化时空序列数据，支持研究者探索从原始像素到连续控制指令的端到端学习范式，解决了传统方法在复杂动态环境中表征学习不足的难题，为具身智能的感知-动作闭环研究奠定数据基础。

实际应用

工业自动化场景中，该数据集可直接用于训练精密装配机械臂的视觉伺服系统。其包含的关节位置控制信号与同步视觉反馈，能够指导机器人完成物料分拣、精细抓取等任务，在电子制造与物流分拣领域具有明确的工程落地价值。

数据集最近研究