smolVLA_cali

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/ceva-automation-sg/smolVLA_cali

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个与机器人学相关的数据集，包含50个 episodes，每个episode包含不同数量的frames，总共20020个frames。数据集包含机器人臂关节位置信息以及两个摄像头视角的视频数据。数据以Parquet文件格式存储，视频以MP4格式存储。该数据集在Apache-2.0许可证下发布。

创建时间：

2025-10-29

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
代码库版本: v3.0
机器人类型: so101_follower

数据集规模

总任务数: 1
总回合数: 50
总帧数: 20020
帧率: 30 FPS
数据文件大小: 100 MB
视频文件大小: 500 MB
块大小: 1000

数据结构

数据分割

训练集: 0:50

文件路径

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征描述

动作特征

名称: action
数据类型: float32
形状: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测

名称: observation.state
数据类型: float32
形状: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

腕部图像观测

名称: observation.images.wrist
数据类型: video
分辨率: 1080×1920×3
视频编码: av1
像素格式: yuv420p
帧率: 30 FPS
深度图: 否
音频: 无

上下文图像观测

名称: observation.images.context
数据类型: video
分辨率: 1080×1920×3
视频编码: av1
像素格式: yuv420p
帧率: 30 FPS
深度图: 否
音频: 无

索引特征

时间戳: float32, 形状[1]
帧索引: int64, 形状[1]
回合索引: int64, 形状[1]
索引: int64, 形状[1]
任务索引: int64, 形状[1]

创建信息

创建工具: LeRobot
主页: [More Information Needed]
论文: [More Information Needed]

引用信息

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，smolVLA_cali数据集依托LeRobot平台构建，采用结构化数据采集流程。该数据集包含50个完整任务片段，总计20020帧数据，以30帧每秒的速率记录。数据以分块形式存储于Parquet文件中，每块容量为1000帧，同时配备高分辨率视频资料，确保动作与观测序列的同步性与完整性。

特点

该数据集显著特点在于其多模态数据融合架构，整合了六维关节空间动作指令与双视角视觉观测。腕部与上下文摄像头均提供1080p分辨率视频流，配合精确的时间戳与帧索引，形成时空对齐的多传感器记录。数据结构采用标准化特征描述，涵盖机器人状态、图像流及任务元数据，为模仿学习研究提供丰富语义层次。

使用方法

研究者可通过解析Parquet数据文件直接获取结构化观测与动作序列，配合MP4格式视频文件实现多模态数据联动。数据集已预设训练集划分，支持端到端的行为克隆或强化学习算法验证。利用帧索引与时间戳可实现精确的时序对齐，而六自由度动作空间与双视觉流则为跨模态表征学习提供理想实验基底。

背景与挑战

背景概述

在机器人学习领域，高质量数据集对推动模仿学习与强化学习算法发展具有关键作用。smolVLA_cali数据集基于LeRobot开源框架构建，采用Apache 2.0许可协议，专门面向六自由度机械臂控制任务。该数据集通过so101_follower型机器人采集了50个完整任务序列，包含20020帧多模态数据，涵盖关节位置控制指令与多视角视觉观测，为研究视觉语言动作模型在真实场景中的泛化能力提供了重要基础。

当前挑战

该数据集致力于解决机器人操作任务中动作-感知协同建模的核心难题，其挑战主要体现在多模态数据对齐与实时控制精度要求。构建过程中面临传感器同步校准、高维度动作空间采样效率、以及长时序任务数据连续性的技术瓶颈，同时需克服大规模视频数据存储与传输带来的工程挑战。

常用场景

经典使用场景

在机器人学习领域，smolVLA_cali数据集为视觉语言动作模型提供了丰富的多模态训练资源。该数据集通过整合机械臂关节状态与高分辨率视觉观测，构建了从感知到控制的完整数据链路。研究者可基于其时空对齐的轨迹数据，开发端到端的模仿学习算法，探索机器人执行复杂任务时的动作规划策略。

解决学术问题

该数据集有效解决了机器人操作任务中多模态表征学习的核心难题。通过提供精确的关节角度数据与同步视觉信息，为研究动作-视觉对应关系建立了实验基础。其标准化数据格式显著降低了机器人强化学习的研究门槛，推动了基于学习的控制策略在真实场景中的验证效率。

衍生相关工作

该数据集催生了多项机器人学习领域的创新研究。基于其构建的行为克隆模型实现了从视觉输入到关节控制的直接映射，启发了分层强化学习在长时序任务中的应用。相关成果进一步拓展到跨模态预训练领域，为具身智能系统的通用表征学习提供了重要基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集