eval_smolvla_all_tasks_10_percent_merged-pick-and-place-into-cup

Hugging Face2026-02-26 更新2026-02-27 收录

下载链接：

https://huggingface.co/datasets/ArshiaE/eval_smolvla_all_tasks_10_percent_merged-pick-and-place-into-cup

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专为机器人技术领域设计，采用apache-2.0许可证。数据集包含10个完整的情节，总计9466帧，涉及1个任务。数据以parquet文件格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括动作和观察状态，其中动作包括6个关节位置（肩部旋转、肩部提升、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置），观察状态同样包含这6个关节位置。此外，数据集还提供了来自两个摄像头（camera1和camera2）的视频数据，分辨率为480x640，3通道，视频编码为av1，像素格式为yuv420p，无音频。数据集还包含时间戳、帧索引、情节索引、索引和任务索引等辅助信息。适用于机器人控制、行为模仿等任务。

创建时间：

2026-02-25

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于模型训练至关重要。eval_smolvla_all_tasks_10_percent_merged-pick-and-place-into-cup数据集依托LeRobot开源框架构建，专门针对“拾取并放入杯中”这一具体任务。其构建过程系统采集了10个完整操作片段，共计9466帧数据，以30帧每秒的速率记录。数据以分块形式组织，每块约1000帧，并存储为Parquet格式，同时配有对应的MP4视频文件，确保了动作序列与视觉观测的同步对齐。

特点

该数据集在结构设计上体现了机器人学习数据的典型特征。它提供了多模态观测信息，包括来自两台相机的RGB视频流，分辨率均为640x480，以及六自由度机械臂的关节位置状态。动作空间同样定义为六维关节位置控制，实现了观测与动作的精确对应。数据集通过时间戳、帧索引和片段索引等元数据，完整保留了时序连续性，为端到端模仿学习或强化学习算法提供了结构清晰、信息完备的训练素材。

使用方法

为有效利用该数据集进行机器人技能学习，研究者可通过LeRobot库或直接读取Parquet文件加载数据。数据按片段和分块组织，便于流式读取或批量处理。典型的应用流程包括从`observation.images.camera1`和`camera2`提取视觉特征，从`observation.state`获取当前状态，并以`action`作为监督信号训练策略模型。数据集仅包含训练划分，适用于模仿学习算法的训练与验证，为机械臂完成精细的抓放任务提供了可直接使用的基准数据源。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的发展亟需高质量、多模态的真实世界交互数据作为支撑。eval_smolvla_all_tasks_10_percent_merged-pick-and-place-into-cup数据集应运而生，它由HuggingFace的LeRobot项目团队构建，专注于机械臂操作任务，特别是“拾取并放入杯中”这一经典场景。该数据集整合了来自真实机器人平台（so_follower）的关节状态、视觉观测与动作指令，旨在为视觉-语言-动作模型提供标准化评估基准。其核心研究问题在于如何通过大规模、结构化的交互数据，推动机器人策略从仿真到真实环境的泛化能力，并对端到端机器人控制模型的性能进行系统性评测，从而加速具身智能的实用化进程。

当前挑战

该数据集致力于解决机器人操作任务中策略泛化与评估的挑战，其核心难题在于如何设计一个能够准确反映模型在复杂、动态的真实环境中执行多步骤物理操作能力的评测体系。具体而言，挑战体现在模型需从高维视觉输入中理解场景语义，并生成精确、连续且物理可行的关节空间动作序列以完成精细的抓取与放置。在构建过程中，挑战同样显著：真实机器人数据采集成本高昂，需确保操作轨迹的多样性与安全性；多模态数据（如双视角视频与关节状态）的精确时间同步与对齐技术复杂；此外，数据标注与清洗工作繁重，需在保证数据质量的同时，维持足够的数据规模以支持模型的有效学习与公平比较。

常用场景

经典使用场景

在机器人操作领域，该数据集聚焦于机械臂执行“抓取并放入杯中”的精细任务，通过整合多视角视觉观测与关节状态数据，为模仿学习与强化学习算法提供了丰富的训练素材。其经典使用场景在于训练端到端的机器人控制策略，模型能够直接从图像输入映射到关节动作输出，模拟人类示教过程，实现自主抓取与放置操作。

解决学术问题

该数据集有效应对了机器人学中样本效率低下与泛化能力不足的挑战，通过结构化记录机械臂在真实环境中的操作轨迹，为研究跨场景策略迁移提供了基准。其意义在于降低了机器人学习对仿真环境的依赖，促进了数据驱动方法在实际硬件部署中的应用，推动了具身智能在复杂任务中的实用化进程。

衍生相关工作

围绕该数据集衍生的经典工作包括基于Transformer的序列建模方法，用于预测机械臂动作序列，以及结合对比学习的视觉表征提取技术，增强模型对物体姿态的感知能力。这些研究进一步拓展了多模态融合在机器人控制中的边界，为后续大规模机器人数据集的构建与算法评估设立了参考标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集