seriintan/eval_act_baseline_same_data
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/seriintan/eval_act_baseline_same_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,主要用于机器人技术领域。数据集包含12个剧集,5769帧,1个任务,数据文件大小为100MB,视频文件大小为200MB,帧率为30fps。数据集的特征包括动作(6个浮点型数据)、观察状态(6个浮点型数据)、前端图像(480x640x3的视频数据)、时间戳、帧索引、剧集索引、索引和任务索引等。数据集的许可证为apache-2.0。
This dataset was created using LeRobot and is primarily used in the field of robotics. The dataset contains 12 episodes, 5769 frames, and 1 task, with data files size of 100MB and video files size of 200MB, and a frame rate of 30fps. The features of the dataset include action (6 float32 data), observation state (6 float32 data), front images (480x640x3 video data), timestamp, frame index, episode index, index, and task index. The license of the dataset is apache-2.0.
提供机构:
seriintan
搜集汇总
数据集介绍

构建方式
该数据集基于LeRobot框架构建,旨在为机器人模仿学习提供标准化的评估基准。数据采集自so_follower机器人平台,涵盖单任务场景下的12个专家演示片段,总计5769帧时序数据。数据集采用分块存储策略,将原始数据拆分为1000帧大小的parquet文件,同时将前置摄像头采集的640×480分辨率视频流以AV1编码压缩存储为独立的MP4片段,确保高频视觉信息与低维状态动作数据的同步管理。
特点
数据集的核心特征在于其多模态对齐架构:6维连续动作空间与观测状态均包含肩部、肘部、腕部及夹爪的关节位置,实现了行为空间的精确闭环映射。前置视觉流以30FPS帧率记录场景动态,与状态序列保持严格时间戳同步。数据划分采用单折训练集设计,12个完整轨迹直接用于模型训练,并配备标准化索引与时间戳字段,便于轨迹级检索与片段重组。
使用方法
推荐通过LeRobot库的Dataset类加载数据,利用其内置的帧采样器按指定频率抽取图像-状态-动作三元组。用户可通过meta/info.json中的特征描述定义观测空间与动作空间的维度映射,支持将视频流通过ffmpeg解码为张量后输入视觉编码器。训练时可采用基于transformer的扩散策略或BC-RNN架构,利用episode_index字段实现回合级批处理与时间差分损失计算。
背景与挑战
背景概述
在机器人学习领域,模仿学习(Imitation Learning)已成为训练机器人执行复杂操作任务的核心范式。eval_act_baseline_same_data数据集由Hugging Face平台通过LeRobot框架构建,旨在为基于行为克隆(Behavior Cloning)的机器人策略评估提供标准化基准。该数据集创建于现代深度学习与机器人技术交叉融合的背景下,聚焦于机械臂精密操作任务,如关节角度控制与夹爪抓取。其核心研究问题在于验证同源数据集(same data)条件下,基线模型ACT(Action Chunking Transformer)的复现性与泛化能力。数据集包含12个episode、5769帧的机器人演示数据,以30帧/秒的频率同时记录6自由度关节状态与第一视角640×480视觉信息。通过开放Apache-2.0许可,该数据集为机器人社区提供了可复现的评估平台,特别是在比较不同模仿学习算法时,有效消除了因数据分布差异带来的干扰。其影响力体现在:将深度学习中的数据集标准化理念引入机器人领域,促进了LeRobot生态下策略评估的公平性。
当前挑战
该数据集所解决的核心领域挑战是机器人模仿学习中的策略泛化性与复现性问题。具体而言,1) 同数据分布下的算法公平评估:传统机器人数据集常因采集环境、硬件校准差异引入隐性偏差,导致不同论文间结果难以直接比较。本数据集通过严格控制同一任务的演示来源与分片规则(chunks_size=1000),要求模型在训练集(12个episode)上学习后,能够稳定复现原始轨迹的动作序列,这直接挑战了行为克隆对数据量的敏感性以及过拟合控制能力。2) 多模态时序数据融合的构建挑战:数据集需同步保存高帧率视频(AV1编码)、6维动作向量及元数据(帧索引、episode编号),parquet分块存储与视频压缩格式(yuv420p)的协同设计,既要保证640×480分辨率下200MB视频流的读写效率,又要维持30fps时序一致性。3) 低资源下的细粒度动作还原:仅具有单任务(total_tasks=1)的5769帧演示,需使模型在so_follower机器人构型下,从肩关节、肘关节到夹爪的6自由度连续控制中,学习到亚毫米级的操作精度。这暴露了当前模仿学习在有限数据集上对高频动态(如抓取瞬态)表征能力不足的瓶颈。
常用场景
经典使用场景
eval_act_baseline_same_data 是机器人操作领域中的一个精炼评估数据集,聚焦于模仿学习特别是行为克隆(Behavior Cloning)方法的基线性能评估。该数据集由 LeRobot 框架生成,包含 12 个操作片段、5769 帧同步数据,涵盖单一操作任务(如抓取或放置)。其经典用法是作为 ACT(Action Chunking with Transformers)等先进算法的标准测试床,通过对比在同一数据集上的训练与评估结果,客观衡量模型在机器人控制中的准确性与泛化能力。研究者在训练阶段利用其动作与状态特征轨迹,在评估时验证模型复现演示动作的保真度,为算法迭代提供稳定的量化基准。
实际应用
在实际应用中,eval_act_baseline_same_data 主要用于验证机器人系统的灵巧操作能力,例如在工业分拣、医疗辅助手术或家庭服务场景中,通过手臂与夹爪协同完成精密任务。数据集特征明确指向 so_follower 机器人平台,其高精度关节姿态与多视角图像数据(640×480 RGB 视频)使得研究者可快速部署端到端控制器,通过离线演示学习直接映射感知输入到执行指令。这种低延迟框架(30 FPS)特别适合需要实时响应的场景,如动态抓取移动物体或协同装配,显著降低了传统编程方法对复杂环境建模的依赖。
衍生相关工作
该数据集衍生了一系列推动机器人学习边界的工作,最显著的是基于 LeRobot 生态的 ACT 及其变体,如扩散策略(Diffusion Policy)与基于状态空间的动力学模型。研究者们利用其作为基准,提出了跨任务泛化中的隐式策略表示、因果干预下的动作分解以及多模态融合中的对比学习等新方法。此外,该数据集还促进了评估协议的设计进步,例如通过分析其在相同训练/测试分布下的过拟合现象,推动了数据增强策略与正则化技术的在机器人领域的应用,并启发了如何从有限片段出发实现无需微调的零样本迁移学习框架。
以上内容由遇见数据集搜集并总结生成



