lerobot_dataset_smolvla_281025

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/Jilloo/lerobot_dataset_smolvla_281025

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人学的数据集，包含61个剧集，共26612帧，专注于一个任务。数据集以Parquet格式存储，并提供了相应的视频文件。数据集的特征包括机器人的动作和状态信息，以及顶部和手腕左侧的图像信息。

创建时间：

2025-10-28

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: 机器人技术
标签: LeRobot

数据集规模

总任务数: 4
总回合数: 211
总帧数: 93264
帧率: 30 fps
数据文件大小: 100 MB
视频文件大小: 500 MB

数据结构

数据文件格式: Parquet
数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
分块大小: 1000
数据分割: 训练集包含全部211个回合

特征描述

动作特征

数据类型: float32
维度: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测

数据类型: float32
维度: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测

顶部摄像头:

数据类型: 视频
分辨率: 480×640×3
视频编码: av1
像素格式: yuv420p
帧率: 30 fps
深度图: 否
音频: 无

左腕部摄像头:

数据类型: 视频
分辨率: 480×640×3
视频编码: av1
像素格式: yuv420p
帧率: 30 fps
深度图: 否
音频: 无

索引特征

时间戳: float32 [1]
帧索引: int64 [1]
回合索引: int64 [1]
数据索引: int64 [1]
任务索引: int64 [1]

技术信息

代码库版本: v3.0
机器人类型: so101_follower

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据采集的规范性与完整性对算法训练至关重要。该数据集通过LeRobot平台系统构建，包含211个完整任务片段，总计93264帧数据，以30帧/秒的采样频率记录。数据采用分块存储机制，每1000帧构成一个数据块，通过parquet格式高效保存关节位置指令与多视角视觉信息，形成结构化机器人操作序列。

使用方法

研究人员可通过标准数据加载流程调用该数据集，利用parquet文件结构快速提取机器人状态与动作序列。训练集覆盖全部211个任务片段，支持端到端模仿学习与强化学习算法验证。多模态数据流可分别用于关节控制策略训练和视觉感知模块开发，时序索引机制便于构建基于历史状态的预测模型，为机器人操作技能迁移提供完整实验基准。

背景与挑战

背景概述

机器人学习领域正经历从仿真环境向真实世界迁移的关键转型期，lerobot_dataset_smolvla_281025数据集作为LeRobot项目的重要组成部分，聚焦于机械臂操作任务的真实场景数据采集。该数据集通过so101_follower型机器人平台，系统记录了包含211个完整任务片段、93264帧多模态数据，涵盖六自由度关节控制与双视角视觉感知信息。其采用Apache 2.0开源协议，以30Hz采样频率同步捕获机械臂状态参数与视觉观测流，为模仿学习与强化学习算法提供了高保真的训练基础。

当前挑战

在机器人操作任务领域，该数据集致力于解决高维连续动作空间与多模态感知融合的核心难题。构建过程中面临传感器时序对齐的技术挑战，需确保六轴关节编码器数据与双路视觉信号在微秒级精度下的同步采集。数据标准化处理环节涉及异构模态的维度统一，包括将480×640分辨率视频流与六维动作向量进行时空对齐。存储架构设计需平衡访问效率与空间占用，通过分块压缩技术将原始视频数据优化至500MB存储规模。

常用场景

经典使用场景

在机器人学习领域，该数据集通过记录六自由度机械臂的关节位置与多视角视觉数据，为模仿学习算法提供了标准化训练资源。其包含的93264帧同步状态观测与动作序列，能够有效支撑从演示数据中提取策略模型的研究工作，特别适用于基于视觉的端到端操作任务学习。

解决学术问题

该数据集显著缓解了机器人学习领域高质量演示数据稀缺的困境，为研究动作表示学习、多模态感知融合等关键问题提供基准。通过标准化数据结构和多传感器同步记录，它使得跨模型性能对比成为可能，推动了模仿学习与强化学习在真实机器人平台上的融合创新。

实际应用

基于该数据集训练的模型可直接部署于工业分拣、精密装配等场景，其记录的肩部平移与腕部旋转动作模式为自动化生产线提供了可复用的动作基元。通过顶部与腕部双视角视觉反馈，系统能够适应复杂环境下的抓取定位任务，显著降低机器人编程门槛。

数据集最近研究