smolVLA_90

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/ceva-automation-sg/smolVLA_90

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由LeRobot创建的机器人动作数据集，包含了60个场景，每个场景包含不同数量的帧，总共27170帧。数据集以Parquet文件格式存储机器人的动作数据，以及对应的视频文件。数据集的特征包括机器人的关节位置、手腕和环境的图像信息等。

创建时间：

2025-10-24

原始信息汇总

smolVLA_90 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
创建工具: LeRobot

数据集规模

总回合数: 60
总帧数: 27170
总任务数: 1
数据分块大小: 1000
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS

数据集结构

数据格式: Parquet文件
数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据划分: 训练集包含全部60个回合

特征字段

动作特征

名称: action
数据类型: float32
形状: [6]
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测

名称: observation.state
数据类型: float32
形状: [6]
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

腕部图像观测

名称: observation.images.wrist
数据类型: video
图像尺寸: 1080×1920×3
视频编码: AV1
像素格式: yuv420p
非深度图

上下文图像观测

名称: observation.images.context
数据类型: video
图像尺寸: 1080×1920×3
视频编码: AV1
像素格式: yuv420p
**非深度图"

元数据特征

时间戳: float32[1]
帧索引: int64[1]
回合索引: int64[1]
索引: int64[1]
任务索引: int64[1]

技术信息

代码库版本: v3.0
机器人类型: so101_follower
视频无音频

搜集汇总

数据集介绍

构建方式

在机器人技术领域，smolVLA_90数据集通过LeRobot框架精心构建，涵盖了60个完整任务片段，总计27170帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与访问。该数据集整合了机器人关节状态、动作指令以及多视角视觉信息，为机器人学习研究提供了丰富的实验基础。

特点

该数据集的特点在于其多维度的数据表征，包含6自由度机械臂的动作与状态数据，以及高分辨率的腕部与上下文视觉流。视频数据以1080p分辨率、30帧率记录，采用先进的AV1编码格式，既保证了视觉质量又优化了存储效率。数据集结构清晰，支持大规模机器人行为分析与模仿学习任务。

使用方法

研究人员可通过加载Parquet格式的数据文件，直接访问机器人的状态、动作及视觉观测序列。数据集已预划分为训练集，支持端到端的机器人策略学习与验证。利用提供的特征结构，用户可灵活提取关节轨迹、图像帧或时间序列信息，适用于强化学习、行为克隆等多种机器人算法开发场景。

背景与挑战

背景概述

在机器人学习领域，高质量行为数据集对推动模仿学习与强化学习算法发展具有关键意义。smolVLA_90数据集基于LeRobot开源框架构建，采用Apache 2.0许可协议，专门面向六自由度机械臂操作任务。该数据集通过SO101型跟随机器人采集了60个完整交互序列，包含27170帧多模态观测数据，以30帧/秒的采样率同步记录关节状态、腕部视角与环境上下文的高清视频流，为机器人动作生成与状态预测研究提供了标准化基准。

当前挑战

该数据集致力于解决机器人视觉-动作映射的核心难题，其挑战在于高维动作空间的连续控制精度与多视角视觉信息的时空对齐。构建过程中面临传感器同步校准、大规模视频数据压缩存储等技术瓶颈，需平衡1080P视频流质量与存储效率，同时确保6维关节轨迹数据的时序一致性。多模态数据融合时还需克服异源信号的时间戳对齐与跨模态特征提取的复杂性。

常用场景

经典使用场景

在机器人学习领域，smolVLA_90数据集作为多模态交互数据的重要载体，其经典应用场景聚焦于视觉语言动作模型的训练与验证。该数据集通过整合机械臂关节状态、腕部摄像头图像及环境上下文视频，构建了丰富的感知-动作映射关系，为模仿学习算法提供了真实世界的操作轨迹。研究者可基于其结构化时序数据，开发能够理解自然语言指令并生成对应动作策略的智能体，推动具身智能在复杂环境中的适应性研究。

解决学术问题

该数据集有效应对了机器人操作任务中感知与动作协同建模的学术挑战。通过提供高精度关节位置数据与同步视觉观测，解决了传统方法在动态环境中动作预测精度不足的瓶颈。其多模态特性支持跨模态表征学习研究，显著提升了模型对任务上下文的理解能力，为机器人操作策略的泛化性与鲁棒性评估建立了标准化基准，填补了真实场景连续控制数据集的空白。

衍生相关工作

围绕该数据集衍生的经典研究包括端到端视觉运动策略网络架构的优化，例如结合Transformer的跨模态注意力机制。多项工作借鉴其多模态时序特性，开发了基于扩散模型的动作生成算法，显著提升了长时序任务的动作连贯性。此外，该数据集还催生了针对部分可观测环境的强化学习新范式，推动了元强化学习在机器人操作任务中的迁移能力研究，形成了一系列具有影响力的基准模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集