eval_act_so100_cup

Hugging Face2025-05-07 更新2025-05-08 收录

下载链接：

https://huggingface.co/datasets/Maxvondemmustermann/eval_act_so100_cup

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人任务数据集，包含10个剧集，7351帧，共20个视频，数据集采用Apache-2.0许可证。数据集中的每个剧集都被分为一个块，每个块包含1000帧。数据集包含的动作和观察状态等特征信息以float32类型存储，并且提供了笔记本电脑和手机的视频信息。所有视频的帧率为25帧/秒，分辨率均为480x640，使用av1编码，格式为yuv420p，没有深度图和音频信息。

创建时间：

2025-05-06

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: robotics
标签: LeRobot, tutorial
代码库版本: v2.0
机器人类型: so100

数据集结构

总集数: 10
总帧数: 7351
总任务数: 1
总视频数: 20
总块数: 1
块大小: 1000
帧率: 25 fps
分割:
- 训练集: 0:10

数据文件

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征

action:
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
observation.state:
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
observation.images.laptop:
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 信息:
  - video.fps: 25.0
  - video.height: 480
  - video.width: 640
  - video.channels: 3
  - video.codec: av1
  - video.pix_fmt: yuv420p
  - video.is_depth_map: false
  - has_audio: false
observation.images.phone:
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 信息:
  - video.fps: 25.0
  - video.height: 480
  - video.width: 640
  - video.channels: 3
  - video.codec: av1
  - video.pix_fmt: yuv420p
  - video.is_depth_map: false
  - has_audio: false
timestamp:
- 数据类型: float32
- 形状: [1]
frame_index:
- 数据类型: int64
- 形状: [1]
episode_index:
- 数据类型: int64
- 形状: [1]
index:
- 数据类型: int64
- 形状: [1]
task_index:
- 数据类型: int64
- 形状: [1]

引用

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

eval_act_so100_cup数据集依托LeRobot开源框架构建，专为机器人控制研究设计。该数据集采用模块化采集策略，通过SO100型机器人执行标准化任务流程，以25fps的采样频率记录机械臂关节角度、夹持器状态及多视角视觉数据。数据存储采用分块式管理，将7351帧动作序列划分为10个完整任务片段，每个片段包含6自由度机械臂控制指令和480×640分辨率的双路RGB视频流，所有数据以Parquet格式进行高效压缩存储。

特点

该数据集的核心价值在于其多维异构数据的精确同步，不仅包含6维连续动作空间（肩部平移/抬升、肘部屈曲、腕部屈曲/旋转及夹持器开合），还整合了笔记本电脑与手机双视角的视觉观测数据。时间维度上通过精确到帧的时间戳实现动作-观测对齐，空间维度则保持640×480分辨率的三通道图像序列。特别值得注意的是，所有视频流采用AV1编解码器以YUV420p格式存储，在保证数据质量的同时显著降低存储需求。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，利用提供的Parquet文件路径模板灵活访问特定任务片段。典型使用场景包括：解析action字段获取机械臂控制指令，调用observation.state分析关节状态变化，或提取observation.images下的视频流进行视觉-动作联合建模。数据已预分割为训练集（10个完整episodes），建议配合LeRobot框架实现端到端机器人策略学习，其中动作空间维度与观测空间结构可直接映射到主流强化学习算法的输入输出层。

背景与挑战

背景概述

eval_act_so100_cup数据集由LeRobot团队开发，专注于机器人控制领域的研究。该数据集基于so100型机器人平台，记录了机械臂执行任务时的多模态数据，包括关节动作、状态观测以及来自笔记本电脑和手机摄像头的视觉信息。数据集构建于2023年，采用Apache-2.0开源协议，旨在为机器人动作模仿学习和控制策略研究提供高质量的训练基准。其独特的双视角视觉数据采集方式，为研究跨视角特征融合和机器人视觉伺服控制提供了新的可能性。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，如何有效融合多源异构数据（包括6自由度机械臂动作、双视角视觉观测和时序信息）以提升机器人动作模仿的精度是一个关键难题；在构建过程层面，数据同步问题尤为突出，需要确保机械臂状态数据与双视角视频帧之间的严格时序对齐。此外，大规模视频数据的存储与高效检索也对数据集架构设计提出了较高要求，这体现在采用分块存储策略和优化的视频编解码方案上。

常用场景

经典使用场景

在机器人控制与行为评估领域，eval_act_so100_cup数据集以其精准的机械臂动作记录和多模态观测数据，成为算法开发与验证的重要基准。该数据集通过捕捉SO100型机械臂的关节角度、末端执行器状态及双视角视频流，为模仿学习与强化学习提供了丰富的训练素材。研究者可基于时间对齐的动作-观测序列，构建从视觉输入到关节控制的端到端映射模型，尤其适合机械臂抓取、物品摆放等桌面级操作任务的算法开发。

解决学术问题

该数据集有效解决了机器人领域动作表示学习中的多模态对齐难题。通过提供同步记录的6自由度关节控制信号、双视角RGB观测及精确时间戳，为研究动作-感知耦合机制、跨模态特征融合等核心问题提供了标准化数据支撑。其结构化存储的连续动作序列与高帧率视频，显著降低了时序动作预测、状态估计等任务的标注成本，推动了基于学习的机器人控制方法在真实物理系统中的落地验证。

衍生相关工作

基于该数据集的特性，已催生出多项机器人学习领域的创新研究。典型工作包括结合Transformer架构的多模态动作预测模型、基于对比学习的视觉-动作表征对齐方法，以及用于模仿学习的扩散策略生成技术。部分研究进一步扩展数据集应用边界，将其与物理仿真引擎结合开发出sim-to-real迁移框架，显著提升了算法在真实机械臂上的泛化性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集