eval_castlejin-testing-SmolVLA

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/castlejin/eval_castlejin-testing-SmolVLA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot代码库创建，主要用于机器人技术领域。数据集包含3个完整的情节，总计2886帧，涉及1个任务。数据以parquet文件格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括动作数据（如肩部、肘部、腕部等关节位置）、观察数据（状态和图像，包括顶部和腕部摄像头拍摄的480x640分辨率视频），以及时间戳、帧索引、情节索引等元数据。视频数据采用AV1编解码器，YUV420p像素格式，无音频。适用于机器人控制、行为模仿等研究任务。

创建时间：

2026-02-27

原始信息汇总

数据集概述

基本信息

数据集名称: eval_castlejin-testing-SmolVLA
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总情节数: 3
总帧数: 2886
总任务数: 1
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据块大小: 1000
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据划分: 训练集包含所有3个情节（索引0到3）

数据特征

动作特征

名称: action
数据类型: float32
形状: [6]
维度名称: ["shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos"]

状态观测特征

名称: observation.state
数据类型: float32
形状: [6]
维度名称: ["shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos"]

图像观测特征

顶部摄像头图像

名称: observation.images.top
数据类型: video
形状: [480, 640, 3]
维度名称: ["height", "width", "channels"]
视频信息:
- 高度: 480像素
- 宽度: 640像素
- 编解码器: AV1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

腕部摄像头图像

名称: observation.images.wrist
数据类型: video
形状: [480, 640, 3]
维度名称: ["height", "width", "channels"]
视频信息:
- 高度: 480像素
- 宽度: 640像素
- 编解码器: AV1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

元数据特征

时间戳: timestamp (数据类型: float32, 形状: [1])
帧索引: frame_index (数据类型: int64, 形状: [1])
情节索引: episode_index (数据类型: int64, 形状: [1])
索引: index (数据类型: int64, 形状: [1])
任务索引: task_index (数据类型: int64, 形状: [1])

机器人信息

机器人类型: so_follower
代码库版本: v3.0

缺失信息

主页: 未提供
论文: 未提供
引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是算法验证与模型训练的基础。eval_castlejin-testing-SmolVLA数据集依托LeRobot框架构建，通过采集真实机器人操作环境中的多模态数据形成。数据以分块形式组织，每个数据块包含1000帧记录，整体涵盖3个完整任务片段，总计2886帧观测数据。数据存储采用高效的Parquet格式，同时辅以MP4格式的视频文件，分别保存机器人状态与视觉观测信息，确保了数据的完整性与可访问性。

特点

该数据集的核心特征在于其丰富的多模态观测与精确的动作标注。观测部分不仅包含机器人本体的6维关节状态，还提供了来自顶部与腕部摄像头的双视角RGB视频流，分辨率均为640x480，帧率为30fps，编码格式为AV1。动作空间同样以6维浮点数向量表示，与观测状态维度对应，便于进行模仿学习或强化学习研究。数据集结构清晰，通过帧索引、片段索引等元数据实现了时序与任务上下文的精确关联。

使用方法

研究人员可利用该数据集进行机器人策略学习、视觉运动控制等任务的算法开发与评估。数据加载可通过解析meta/info.json中的路径模板，按块读取Parquet文件以获取状态、动作及时间戳序列；视频文件则独立存储，可通过视频键与块索引进行关联访问。由于数据集规模适中且结构规范，它非常适合用于原型算法的快速验证、多模态表征学习的实验，以及机器人仿真到真实迁移研究的基准测试。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的真实世界交互数据对于推动模仿学习与强化学习算法的进步至关重要。eval_castlejin-testing-SmolVLA数据集依托HuggingFace的LeRobot开源框架构建，专注于机器人操作任务的数据收集与评估。该数据集由社区贡献者castlejin创建，旨在为机器人策略学习提供结构化的多模态观测与动作序列记录，其核心研究问题在于如何有效整合来自顶部摄像头与腕部摄像头的视觉信息以及六自由度机械臂的关节状态，以训练能够在非结构化环境中执行复杂操作的智能体。尽管数据集规模相对较小，仅包含3个任务片段，但它体现了开源社区在降低机器人学习数据获取门槛、促进算法可复现性方面的积极探索，为后续研究提供了宝贵的原型验证基础。

当前挑战

该数据集所针对的机器人操作学习领域，核心挑战在于如何从高维、异构的多模态观测（如双视角视频与连续关节状态）中学习出鲁棒且泛化能力强的控制策略。具体而言，模型需克服真实世界中的感知噪声、动作执行误差以及动态环境变化所带来的不确定性。在数据集构建层面，挑战同样显著：首先，数据采集需协调机器人硬件同步、多传感器数据对齐与高效存储，确保时序一致性；其次，标注或任务定义需清晰明确，以支持有监督或离线强化学习范式；此外，当前数据集规模有限，涵盖的任务场景与状态空间多样性不足，可能制约模型的泛化性能评估。如何系统性地扩展数据规模、丰富任务类型并保证数据质量，是未来构建更具影响力机器人数据集的关键。

常用场景

经典使用场景

在机器人学习领域，eval_castlejin-testing-SmolVLA数据集为模仿学习与强化学习算法的评估提供了关键基准。该数据集通过记录机械臂在特定任务中的关节位置、图像观察及时间戳，构建了多模态交互轨迹，典型应用于训练端到端的策略模型，以验证算法在真实世界机器人控制任务中的泛化能力与鲁棒性。

解决学术问题

该数据集有效应对了机器人学中样本效率低下与仿真到现实迁移的挑战。通过提供包含丰富感官输入与精确动作标注的真实交互数据，它支持研究者探索数据驱动的控制方法，减少对昂贵物理实验的依赖，并促进跨任务知识迁移的理论研究，从而推动具身智能在动态环境中的适应性发展。

衍生相关工作

围绕该数据集，学术界衍生出一系列关于多模态表示学习与离线强化学习的经典研究。例如，基于其轨迹数据开发的视觉动作预测模型，显著提升了机械臂在部分可观测环境中的决策准确性；同时，该数据集也常被用于基准测试，催生了多种高效的行为克隆与逆强化学习算法，推动了机器人学习社区的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集