seriintan/eval_act_baseline_v2

Name: seriintan/eval_act_baseline_v2
Creator: seriintan
Published: 2026-04-25 11:30:49
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/seriintan/eval_act_baseline_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，主要用于机器人技术领域。数据集包含12个总集数，3123个总帧数，1个总任务数。数据文件以parquet格式存储，视频文件以mp4格式存储。数据集的特征包括动作（6个浮点型数据，代表机器人的各个关节位置）、观察状态（同样为6个浮点型数据，代表机器人的各个关节位置）、前视图像（480x640x3的视频数据，30帧每秒）、时间戳、帧索引、集索引、索引和任务索引。

This dataset was created using LeRobot and is primarily used in the field of robotics. The dataset contains a total of 12 episodes, 3123 frames, and 1 task. Data files are stored in parquet format, and video files are stored in mp4 format. Features of the dataset include actions (6 float32 values representing the positions of the robots joints), observation states (also 6 float32 values representing the positions of the robots joints), front-view images (video data of 480x640x3 at 30 fps), timestamps, frame indices, episode indices, indices, and task indices.

提供机构：

seriintan

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是训练智能体行为克隆模型的基础。eval_act_baseline_v2数据集依托LeRobot框架构建，专注于为机器人策略评估提供标准化基准。该数据集通过so_follower机器人平台采集，共包含12个完整轨迹片段，总计3123帧数据，帧率为30fps。数据以Parquet格式存储于分块文件中，影像数据则采用AV1编码的MP4格式，分辨率为480×640。数据集仅包含单一任务，训练集覆盖全部12个片段，确保了数据的一致性与可复现性。

特点

该数据集的核心特点在于其结构化的多模态信息与任务导向的简洁性。每个数据帧均包含六维关节动作指令与状态观测，精确对应shoulder_pan、shoulder_lift、elbow_flex、wrist_flex、wrist_roll及gripper六个自由度。同时，前置摄像头提供640×480的RGB视觉输入，使模型能够学习从图像到动作的映射。此外，数据集明确记录了时间戳、帧索引与任务索引，便于时序分析，且遵循Apache-2.0许可协议，适合学术与工业应用。

使用方法

使用本数据集时，可借助LeRobot库的标准化接口进行加载与预处理。数据路径遵循'data/chunk-{index}/file-{index}.parquet'的规则，视频文件亦以类似结构组织。开发者可直接通过LeRobot的dataset类读取Parquet与MP4文件，获取统一的action、observation.state及observation.images.front等特征字典。建议将全部12个轨迹作为训练集，以30fps的采样率对时序数据进行滑动窗口分割，进而用于训练基于ACT（Action Chunking with Transformers）的策略模型，实现端到端的机器人操控学习。

背景与挑战

背景概述

随着机器人学习领域的蓬勃发展，模仿学习与行为克隆技术已成为驱动智能体从专家演示中获取复杂技能的核心范式。在此背景下，eval_act_baseline_v2数据集应运而生，由Hugging Face团队依托其开源机器人工具库LeRobot于近期构建并发布。该数据集聚焦于单任务机器人操作场景，基于so_follower机器人平台采集了12个演示片段，共计3123帧高保真数据，涵盖6自由度关节状态与640×480分辨率的前视视觉信息。其核心研究问题在于为评估基于Transformer的行为克隆算法（如ACT模型）提供标准化基准，推动机器人从仿真到真实部署的泛化能力研究。作为LeRobot生态系统中的关键评估组件，该数据集凭借Apache-2.0许可证的开放性，为全球研究者在机器人技能学习领域对比算法性能、验证模型鲁棒性提供了可复现的实验范式，对加速具身智能的实证研究具有显著推动作用。

当前挑战

该数据集所解决的领域问题聚焦于机器人行为克隆中高维连续动作空间与视觉状态指代间的映射挑战，具体体现为：一、在仅有12个短片段（约100秒总时长）的小样本条件下，模型需从稀缺的专家轨迹中提炼出稳健的策略，避免过拟合于特定初始化或环境扰动；二、原始观察状态仅包含6维关节角，缺乏末端执行器位姿或力觉反馈，要求算法仅从稀疏的低维状态与高维图像中融合出有效表征。在构建过程中，挑战同样严峻：数据采集依赖so_follower遥操作平台，人工示教的一致性与跨片段的可重复性难以保证，易引入噪声轨迹；此外，AV1编码的视频虽压缩高效，但解码延迟与质量损失可能对基于图像的特征提取造成潜在干扰，且仅单个前视摄像头视角限制了场景几何信息的捕获，为后续多视角融合或遮挡处理埋下隐患。

常用场景

经典使用场景

在机器人学习与模仿学习领域，eval_act_baseline_v2数据集作为评估ACT（Action Chunking with Transformers）基线模型性能的标准化测试平台，其核心用途在于验证机器人操作策略的泛化能力与鲁棒性。该数据集包含12个完整轨迹，涵盖3123帧高保真观测数据，通过前视摄像头以30帧/秒捕获的480×640像素RGB视频与六维关节状态信息，形成多模态感知-动作闭环。研究者常将其作为基准测试集，在相同数据分布下对比不同算法在精细操作任务（如抓取、装配）中的表现差异，尤其注重模型对长程时序依赖的建模效果与动作序列生成的平滑性。

解决学术问题

该数据集精准回应了机器人学中‘数据稀缺与策略泛化’的长期困境，通过标准化格式的SO_Follower操作数据，为学术社区提供可复现的评估基准。其解决了三大核心问题：第一，动作空间与状态空间的对齐校准——六维关节指令与状态观测的同构设计（shoulder_pan至gripper）使研究者能系统验证策略输出与反馈控制的一致性；第二，跨模态融合难题——深度集成图像与本体感知数据，推动视觉-动作联合表征学习的前沿探索；第三，小样本学习场景的落地验证——仅12个episode即可支撑对算法数据效率的严苛考验，显著降低了机器人操作研究的准入壁垒。

衍生相关工作

基于本数据集的基线特性，学术界已派生出一系列里程碑式研究：首先启发了Chunked Diffusion Policy的时序注意力改进，通过非自回归生成突破动作序列的长度限制；其次催生了Hierarchical Imitation Learning框架，利用前视图像的多尺度特征构建子任务分解器；此外还衍生出对抗性扰动训练的鲁棒模仿学习范式，在关节空间添加物理可解释噪声以增强策略抗干扰能力。值得关注的是，后续工作如EfficientNet-ACT通过轻量化骨架网络将推理延时压缩至5ms以内，而Bridge-CN则借助跨任务元学习实现了单episode的极速适应。这些成果共同构成了从数据标准化到算法生态演化的完整创新链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集