act

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/bkgrf/act

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人数据集，包含了63个剧集，共61173帧，专注于一种机器人类型so101_follower。数据集以Parquet文件格式存储，并包括相应的MP4视频文件。数据集的特征包括机器人的动作位置、状态、手腕和前部摄像头捕获的图像等，帧率为30fps。数据集的许可为Apache-2.0。

创建时间：

2025-10-23

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
创建工具: LeRobot

数据集规模

总情节数: 63
总帧数: 61173
总任务数: 1
数据分块大小: 1000
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS

数据结构

数据格式: Parquet文件
数据路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
代码库版本: v3.0
机器人类型: so101_follower
数据划分: 训练集包含全部63个情节

数据特征

动作特征

数据类型: float32
维度: [6]
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测

数据类型: float32
维度: [6]
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测

腕部摄像头:

数据类型: 视频
分辨率: 480×640×3
视频编码: AV1
像素格式: yuv420p
非深度图
无音频

前置摄像头:

数据类型: 视频
分辨率: 480×640×3
视频编码: AV1
像素格式: yuv420p
非深度图
无音频

索引特征

时间戳: float32, 维度[1]
帧索引: int64, 维度[1]
情节索引: int64, 维度[1]
索引: int64, 维度[1]
任务索引: int64, 维度[1]

引用信息

主页: 信息缺失
论文: 信息缺失
BibTeX引用: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据采集的精确性与系统性至关重要。ACT数据集通过LeRobot平台构建，采用SO101跟随者机器人记录63个完整任务片段，涵盖61173帧数据，以30帧每秒的速率采集。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保高效存取与处理。采集过程中同步记录机器人关节状态、腕部与前方视觉信息，形成多模态数据流。

使用方法

对于机器人模仿学习研究，该数据集提供完整的训练范例。研究者可通过解析Parquet文件获取结构化数据，利用帧索引重建任务序列。视觉数据存储在独立视频文件中，与动作数据通过元数据关联。建议按照标准数据加载流程，先读取元信息配置文件，再按分块加载相应数据。训练时可直接使用全部63个任务片段，数据集已预设训练划分方案。

背景与挑战

背景概述

机器人操作数据集作为强化学习与模仿学习研究的重要基础设施，其发展推动了智能体在物理环境中的自主决策能力。ACT数据集由HuggingFace的LeRobot项目团队构建，专注于机械臂控制任务，通过整合多模态观测数据与关节动作指令，为机器人策略学习提供真实交互轨迹。该数据集包含63个完整交互序列与6万帧高维数据，涵盖手腕与前置双视角视觉输入及六自由度关节控制空间，显著提升了机器人模仿学习任务的训练效率与泛化性能。

当前挑战

机器人操作领域面临高维状态空间下的动作序列预测难题，需解决视觉观测与关节控制指令间的复杂映射关系。数据集构建过程中存在多传感器时序对齐、机械臂轨迹噪声抑制、以及大规模视频数据压缩存储等技术挑战。此外，真实环境下的光照变化、物体遮挡等动态因素进一步增加了行为克隆与策略泛化的难度。

常用场景

经典使用场景

在机器人控制领域，ACT数据集作为LeRobot框架的重要组成部分，为模仿学习算法的开发提供了关键支持。该数据集通过记录机械臂关节位置与视觉观测数据，构建了完整的动作-状态序列，使得研究者能够基于真实操作轨迹训练策略模型。其多模态特性特别适合用于端到端的行为克隆研究，为机器人动作预测任务奠定了数据基础。

解决学术问题

该数据集有效解决了机器人模仿学习中动作表示与状态观测的对应关系问题。通过提供精确的关节角度控制指令与同步的视觉反馈，研究者能够深入探索动作空间与观测空间的映射机制。其丰富的时序数据有助于突破传统控制方法的局限性，为连续动作预测、多模态感知融合等前沿课题提供了可靠的研究平台。

实际应用

在工业自动化场景中，该数据集支持的算法可应用于精密装配、物料分拣等任务。基于腕部与前置摄像头的双视角视觉系统，能够模拟真实工作环境下的操作需求。通过迁移学习技术，训练得到的控制策略可直接部署于同类机械臂系统，显著降低机器人编程的复杂度，提升生产线的智能化水平。

数据集最近研究