five

act

收藏
Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/bkgrf/act
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个机器人数据集,包含了63个剧集,共61173帧,专注于一种机器人类型so101_follower。数据集以Parquet文件格式存储,并包括相应的MP4视频文件。数据集的特征包括机器人的动作位置、状态、手腕和前部摄像头捕获的图像等,帧率为30fps。数据集的许可为Apache-2.0。
创建时间:
2025-10-23
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 机器人技术
  • 标签: LeRobot
  • 创建工具: LeRobot

数据集规模

  • 总情节数: 63
  • 总帧数: 61173
  • 总任务数: 1
  • 数据分块大小: 1000
  • 数据文件大小: 100 MB
  • 视频文件大小: 500 MB
  • 帧率: 30 FPS

数据结构

  • 数据格式: Parquet文件
  • 数据路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
  • 视频路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
  • 代码库版本: v3.0
  • 机器人类型: so101_follower
  • 数据划分: 训练集包含全部63个情节

数据特征

动作特征

  • 数据类型: float32
  • 维度: [6]
  • 关节位置:
    • shoulder_pan.pos
    • shoulder_lift.pos
    • elbow_flex.pos
    • wrist_flex.pos
    • wrist_roll.pos
    • gripper.pos

观测特征

状态观测

  • 数据类型: float32
  • 维度: [6]
  • 关节位置:
    • shoulder_pan.pos
    • shoulder_lift.pos
    • elbow_flex.pos
    • wrist_flex.pos
    • wrist_roll.pos
    • gripper.pos

图像观测

腕部摄像头:

  • 数据类型: 视频
  • 分辨率: 480×640×3
  • 视频编码: AV1
  • 像素格式: yuv420p
  • 非深度图
  • 无音频

前置摄像头:

  • 数据类型: 视频
  • 分辨率: 480×640×3
  • 视频编码: AV1
  • 像素格式: yuv420p
  • 非深度图
  • 无音频

索引特征

  • 时间戳: float32, 维度[1]
  • 帧索引: int64, 维度[1]
  • 情节索引: int64, 维度[1]
  • 索引: int64, 维度[1]
  • 任务索引: int64, 维度[1]

引用信息

  • 主页: 信息缺失
  • 论文: 信息缺失
  • BibTeX引用: 信息缺失
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人技术领域,数据采集的精确性与系统性至关重要。ACT数据集通过LeRobot平台构建,采用SO101跟随者机器人记录63个完整任务片段,涵盖61173帧数据,以30帧每秒的速率采集。数据以分块形式存储于Parquet文件中,每块包含1000帧,确保高效存取与处理。采集过程中同步记录机器人关节状态、腕部与前方视觉信息,形成多模态数据流。
使用方法
对于机器人模仿学习研究,该数据集提供完整的训练范例。研究者可通过解析Parquet文件获取结构化数据,利用帧索引重建任务序列。视觉数据存储在独立视频文件中,与动作数据通过元数据关联。建议按照标准数据加载流程,先读取元信息配置文件,再按分块加载相应数据。训练时可直接使用全部63个任务片段,数据集已预设训练划分方案。
背景与挑战
背景概述
机器人操作数据集作为强化学习与模仿学习研究的重要基础设施,其发展推动了智能体在物理环境中的自主决策能力。ACT数据集由HuggingFace的LeRobot项目团队构建,专注于机械臂控制任务,通过整合多模态观测数据与关节动作指令,为机器人策略学习提供真实交互轨迹。该数据集包含63个完整交互序列与6万帧高维数据,涵盖手腕与前置双视角视觉输入及六自由度关节控制空间,显著提升了机器人模仿学习任务的训练效率与泛化性能。
当前挑战
机器人操作领域面临高维状态空间下的动作序列预测难题,需解决视觉观测与关节控制指令间的复杂映射关系。数据集构建过程中存在多传感器时序对齐、机械臂轨迹噪声抑制、以及大规模视频数据压缩存储等技术挑战。此外,真实环境下的光照变化、物体遮挡等动态因素进一步增加了行为克隆与策略泛化的难度。
常用场景
经典使用场景
在机器人控制领域,ACT数据集作为LeRobot框架的重要组成部分,为模仿学习算法的开发提供了关键支持。该数据集通过记录机械臂关节位置与视觉观测数据,构建了完整的动作-状态序列,使得研究者能够基于真实操作轨迹训练策略模型。其多模态特性特别适合用于端到端的行为克隆研究,为机器人动作预测任务奠定了数据基础。
解决学术问题
该数据集有效解决了机器人模仿学习中动作表示与状态观测的对应关系问题。通过提供精确的关节角度控制指令与同步的视觉反馈,研究者能够深入探索动作空间与观测空间的映射机制。其丰富的时序数据有助于突破传统控制方法的局限性,为连续动作预测、多模态感知融合等前沿课题提供了可靠的研究平台。
实际应用
在工业自动化场景中,该数据集支持的算法可应用于精密装配、物料分拣等任务。基于腕部与前置摄像头的双视角视觉系统,能够模拟真实工作环境下的操作需求。通过迁移学习技术,训练得到的控制策略可直接部署于同类机械臂系统,显著降低机器人编程的复杂度,提升生产线的智能化水平。
数据集最近研究
最新研究方向
在机器人操作学习领域,ACT数据集凭借其多模态观测与关节控制动作的精细记录,正推动模仿学习与视觉运动策略的前沿探索。该数据集通过手腕与前置双视角视频流与六自由度机械臂状态数据,为跨模态表征学习提供了实验基础。当前研究聚焦于从人类演示中提取可泛化策略,结合Transformer架构处理时序依赖关系,旨在解决真实场景中动态适应与样本效率的挑战。随着具身智能研究升温,此类数据支撑的端到端控制方法正逐步缩小仿真与实物的语义鸿沟,为服务机器人自主操作奠定算法验证基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作