csacan/eval_act_banana_bowl
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/csacan/eval_act_banana_bowl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个与机器人技术相关的数据集,由LeRobot创建。数据集包含机器人的动作、观察状态、图像、时间戳、帧索引、剧集索引、索引和任务索引等特征。数据文件大小为100MB,视频文件大小为200MB,帧率为30fps。数据集的许可证为apache-2.0。
This dataset is related to robotics and was created by LeRobot. It includes features such as actions, observation states, images, timestamps, frame indices, episode indices, indices, and task indices. The data file size is 100MB, the video file size is 200MB, and the frame rate is 30fps. The dataset is licensed under apache-2.0.
提供机构:
csacan
搜集汇总
数据集介绍

构建方式
在机器人操作领域,精准抓取与放置任务(如将香蕉放入碗中)是验证模仿学习算法的经典场景。eval_act_banana_bowl数据集基于LeRobot框架构建,以SO-100型号的从手(so_follower)为数据采集平台,通过遥控操作或预设轨迹记录机器人的运动与视觉信息。数据以30帧/秒的采样频率存储,包含6维关节动作(肩关节、肘关节、腕关节及夹爪的位姿)与对应状态,并配以1080×1920分辨率的前置摄像头RGB图像。所有数据被分割为固定大小的chunk(每块1000帧),采用Parquet格式存储数值型特征,MP4格式存储视频流,形成高效且结构化的数据组织。
特点
该数据集专为评估模仿学习模型在简单抓取任务中的泛化能力而设计,其核心特点在于动作与状态空间的高度耦合性:动作向量(action)与观测状态(observation.state)均覆盖相同的6个关节维度,便于研究者直接对比预测与控制误差。虽然当前版本标注为“0个episode”,但其框架支持动态扩展,通过调整chunks_size参数可灵活适应不同长度的演示序列。此外,数据集采用Apache-2.0协议开源,并结合LeRobot的可视化工具(如HuggingFace Spaces),提供即开即用的交互式浏览接口,降低机器人学习研究的入门门槛。
使用方法
使用本数据集时,推荐通过LeRobot的DataLoader模块加载Parquet文件与视频流,利用其内置的episode_index和frame_index字段实现时间序列对齐。研究者可基于6维动作与状态数据训练行为克隆(Behavior Cloning)或隐式策略(如ACT算法),并借助observation.images.front中的视觉输入构建多模态控制模型。由于数据集以chunk形式分片存储,处理时需按chunk_index逐块拼接,或利用LeRobot的自动分片加载功能。此外,HuggingFace上的“Visualize this dataset”按钮可直接在浏览器中播放录制的演示视频,帮助用户快速评估数据质量与任务分布特性。
背景与挑战
背景概述
在机器人学习领域,模仿学习作为一种高效的行为获取范式,近年来备受关注。该领域的研究重点之一是如何利用大规模、高保真的数据集来训练具备泛化能力的机器人策略。eval_act_banana_bowl数据集由Hugging Face的LeRobot团队构建,遵循Apache-2.0开源协议,旨在为机器人操作任务提供标准化的评估与训练基准。数据集聚焦于“so_follower”机器人执行香蕉碗摆放的精密操控任务,通过多视角高清视频(1080×1920分辨率,30帧/秒)与6维关节动作指令(包含肩部、肘部、腕部及夹爪的位姿参数)的同步记录,构建起完整的观测-动作映射关系。该数据集的发布填补了细粒度物体操作任务在标准化评估数据集方面的空白,为跨机构、跨平台的机器人模仿学习研究提供了可复现的验证基础。
当前挑战
该数据集面临的核心领域挑战在于机器人模仿学习的泛化性与鲁棒性。具体而言,如何在有限演示数据中提取可迁移的操作策略,以应对香蕉碗形状、放置角度、环境光照等扰动因素是首要难题。同时,数据集构建过程本身存在显著技术障碍:由于采用“so_follower”型机器人进行实际物理交互,高精度液态物料(香蕉碗)的抓取与放置极容易因夹爪力控误差或物体滑移导致数据标注不匹配。此外,多视角(1个主视觉通道)成像下的图像特征与6自由度动作的时域同步要求严苛,任何毫秒级的延迟都会破坏训练样本的有效性,而parquet格式的高频流式存储与视频文件的编码压缩又进一步增加了数据一致性与质量控制的难度。
常用场景
经典使用场景
在机器人学习领域,eval_act_banana_bowl数据集专为模仿学习中的动作条件变换(ACT)模型评估而设计。该数据集通过so_follower机器人采集了香蕉碗操作任务的六自由度关节动作序列与高分辨率视觉观测数据,其标准化的parquet存储格式与30帧/秒的采样频率,使其成为验证基于视觉-动作联合建模的机器人操控算法的理想基准。研究人员利用该数据集中的关节状态与视频帧对应关系,可复现经典的ACT模型训练流程,系统评估模型在动态抓取与放置任务中的动作预测精度与泛化能力。
解决学术问题
该数据集核心解决了机器人模仿学习中数据标准化缺失与评估指标不统一的学术困境。通过提供包含六维关节动作、视觉图像及时间戳的对齐数据,它使研究者能够定量比较不同动作预测模型的性能差异。数据集的结构化设计(如1000帧的chunk划分)有效降低了数据处理开销,使得针对机器人操作中动作序列建模、跨模态对齐及长程依赖捕获等基础问题的研究得以高效开展,推动了从仿真到真实场景的迁移学习研究。
衍生相关工作
基于该数据集的数据格式与评估范式,衍生出多项经典工作。其中,LeRobot框架将其作为标准测试集,验证了以chunk-based parquet格式存储大容量机器人数据的可行性;后续研究通过修改数据集中的动作空间定义(如增加力控维度),探索了混合专家模型在多任务场景下的表现;另有工作基于其视频-动作对齐特性,提出了时空注意力机制的改进版本,显著提升了长动作序列的预测连贯性。
以上内容由遇见数据集搜集并总结生成



