eval_smolvla_ablation2

Hugging Face2025-12-11 更新2025-12-12 收录

下载链接：

https://huggingface.co/datasets/danipaez/eval_smolvla_ablation2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人领域。数据集包含10个episodes，3010帧，1个任务。数据文件以parquet格式存储，视频文件以mp4格式存储。特征包括动作（6个关节位置）、观察状态（6个关节位置）、两个摄像头的图像（480x640分辨率，30fps）、时间戳、帧索引、episode索引等。数据集总大小为100MB（数据文件）和500MB（视频文件）。

创建时间：

2025-12-02

原始信息汇总

数据集概述

基本信息

数据集名称: eval_smolvla_ablation2
创建工具: LeRobot
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模

总情节数: 10
总帧数: 3010
总任务数: 1
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 500 MB
帧率: 30 FPS
数据分割: 训练集（索引 0 至 10）

数据结构

数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作
- 数据类型: float32
- 形状: [6]
- 维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测状态
- 数据类型: float32
- 形状: [6]
- 维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测图像（相机1）
- 数据类型: 视频
- 形状: [480, 640, 3]
- 维度名称: 高度, 宽度, 通道数
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: 否
  - 帧率: 30
  - 通道数: 3
  - 包含音频: 否
观测图像（相机2）
- 数据类型: 视频
- 形状: [480, 640, 3]
- 维度名称: 高度, 宽度, 通道数
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: 否
  - 帧率: 30
  - 通道数: 3
  - 包含音频: 否
时间戳
- 数据类型: float32
- 形状: [1]
- 维度名称: 无
帧索引
- 数据类型: int64
- 形状: [1]
- 维度名称: 无
情节索引
- 数据类型: int64
- 形状: [1]
- 维度名称: 无
索引
- 数据类型: int64
- 形状: [1]
- 维度名称: 无
任务索引
- 数据类型: int64
- 形状: [1]
- 维度名称: 无

技术详情

代码库版本: v3.0
机器人类型: so101_follower

引用信息

主页: 未提供
论文: 未提供
BibTeX引用: 未提供

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动算法发展的基石。eval_smolvla_ablation2数据集依托LeRobot平台构建，通过记录SO101跟随者机器人在真实或仿真环境中的交互过程，系统采集了10个完整任务片段，共计3010帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，并同步录制了双视角视觉信息，帧率为30fps，确保了时序动作与观测状态的对齐，为机器人控制策略的消融研究提供了结构化基础。

特点

该数据集在机器人操作任务中展现出多维融合的特点，不仅包含六自由度关节位置的动作指令与状态观测，还整合了两个相机视角的RGB视频流，形成了多模态感知框架。数据以高效压缩的AV1编码存储视频，分辨率统一为640x480，在保证视觉细节的同时优化了存储效率。其清晰的元数据结构定义了帧索引、片段索引等关键标识，支持对长时序任务进行精确切片与分析，为视觉-动作联合建模提供了丰富而一致的输入输出对。

使用方法

研究人员可利用该数据集进行机器人模仿学习或强化学习算法的训练与评估。通过加载Parquet文件，可便捷访问动作、状态及时间戳等标量数据；视频文件则可通过指定路径解码，获取同步的视觉观测。数据集已预分为训练集，涵盖全部10个片段，用户可依据帧索引重建任务轨迹，或提取特定片段进行策略验证。该结构兼容常见机器人学习框架，便于开展控制策略的消融实验与跨模态表征的性能对比。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的数据集对于推动模仿学习与强化学习算法的进步至关重要。eval_smolvla_ablation2数据集依托于LeRobot开源框架构建，专注于机器人控制任务，特别是针对so101_follower型机器人的操作行为记录。该数据集收录了包含多模态观测信息（如关节状态与双摄像头视觉流）与对应动作指令的序列数据，旨在为机器人策略的评估与消融分析提供基准支持。尽管其具体创建时间与核心研究团队在现有资料中尚未明确标注，但作为Apache 2.0许可下的开放资源，它体现了当前机器人学界对可复现实验与标准化评估环境的迫切需求，有望促进端到端机器人控制模型的迭代与优化。

当前挑战

该数据集致力于应对机器人模仿学习中策略泛化与多模态感知融合的核心挑战。具体而言，其旨在解决从高维视觉观察与本体状态到连续动作空间的映射问题，这对模型的鲁棒性与适应性提出了较高要求。在构建过程中，挑战主要源于数据采集的复杂性与一致性保障：需要同步记录多路视频流与精确的关节位置时序数据，并确保任务执行的连贯性与场景覆盖的多样性。此外，数据规模相对有限（仅包含10个完整片段），可能制约了模型在大规模训练下的泛化能力评估，而数据标注与元信息的完整性（如论文与主页链接的缺失）亦对研究的可追溯性与深入分析构成潜在障碍。

常用场景

经典使用场景

在机器人学习领域，eval_smolvla_ablation2数据集为视觉语言动作模型的消融研究提供了关键支持。该数据集通过记录六自由度机械臂在特定任务中的关节位置、视觉观测和时间序列数据，为研究者构建了多模态交互环境。其经典使用场景集中于评估模型在连续控制任务中的泛化能力，例如通过对比不同架构或训练策略下机器人的动作执行效果，从而揭示模型组件对性能的具体贡献。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多模态机器人学习框架的改进上。研究者利用其序列化数据开发了基于Transformer的视觉语言动作模型，这些模型通过融合时间维度的观测信息，实现了对长时程任务的有效规划。同时，该数据集也催生了针对数据高效利用的研究，例如通过逆动力学建模或对比学习从有限样本中提取可迁移的技能表示，为样本效率低的机器人学习问题提供了新思路。

数据集最近研究