aloha_caterpillar_down25fps

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/prachigarg23/aloha_caterpillar_down25fps

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用LeRobot创建的机器人学数据集。数据集包含79个剧集，共46200帧，316个视频和1个块。数据集的结构包括视频和观察特征，如图像尺寸、帧率和编解码器信息。该数据集仅包含训练数据。特征包括机器人的不同摄像头视图和状态信息。该数据集遵循Apache-2.0许可。

创建时间：

2025-11-19

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

代码库版本: v2.0
机器人类型: 未知
总任务数: 1
总视频数: 316
总片段数: 79
总帧数: 46200
片段大小: 1000
帧率: 25fps
数据分割: 训练集包含全部79个片段

数据文件格式

数据文件路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征说明

图像观测特征

观测图像.cam_high: 视频格式，分辨率240×320×3，帧率25fps，AV1编码
观测图像.cam_left_wrist: 视频格式，分辨率240×320×3，帧率25fps，AV1编码
观测图像.cam_low: 视频格式，分辨率240×320×3，帧率25fps，AV1编码
观测图像.cam_right_wrist: 视频格式，分辨率240×320×3，帧率25fps，AV1编码

状态观测特征

观测状态: float32类型，14维向量，对应14个电机状态
观测力矩: float32类型，14维向量，对应14个电机力矩

动作特征

动作: float32类型，14维向量，对应14个电机控制

索引特征

片段索引: int64类型
帧索引: int64类型
时间戳: float32类型
任务索引: int64类型
索引: int64类型
下一帧完成标志: bool类型

创建信息

创建工具: LeRobot (https://github.com/huggingface/lerobot)

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据采集的精确性与系统性至关重要。aloha_caterpillar_down25fps数据集通过LeRobot平台构建，采用多视角视觉与状态记录相结合的方式，共收录79个完整任务片段，总计46200帧数据。数据以分块形式存储于Parquet文件中，每个块包含1000帧，采样频率为25fps，确保了时序连贯性。观测数据涵盖四个摄像头视角（高位、低位、左右腕部）的240x320分辨率视频流，以及14维电机状态与力矩信息，通过结构化元数据完整保留了机器人操作过程中的多模态交互细节。

特点

该数据集在机器人操作学习领域展现出显著的多模态集成特性。其核心优势在于同步采集了四路高清视频流与高维状态向量，视频数据采用AV1编码压缩，在保证视觉质量的同时优化存储效率。观测特征包括14个电机的实时状态、力矩及动作指令，维度统一且命名规范，便于模型解析。数据集整体结构清晰，所有片段均归属于单一任务类别，支持直接加载与批量处理，为模仿学习与行为克隆研究提供了高度一致的实验基准。

使用方法

针对机器人控制算法的开发需求，该数据集可通过标准数据加载流程快速集成至训练管道。用户需按照指定路径模板访问分块存储的Parquet文件，其中数据按片段索引与帧索引分层组织。视频流与传感器数据可通过特征键直接提取，例如observation.images.cam_high对应高位摄像机画面。建议研究者利用帧索引与时间戳字段重构操作序列，结合next.done标志识别任务终止状态，进而构建状态-动作映射模型。数据集兼容主流机器学习框架，支持端到端的策略学习与验证。

背景与挑战

背景概述

在机器人学习领域，多模态感知数据对复杂任务执行具有关键意义。aloha_caterpillar_down25fps数据集由LeRobot研究团队构建，通过集成四路视觉传感器与14自由度机械臂状态数据，为模仿学习与策略泛化研究提供支撑。该数据集包含79个完整任务序列，以25帧率同步记录手腕视角与全局视角的视觉流，其结构化存储格式与丰富传感器模态为机器人操作技能迁移奠定了数据基础。

当前挑战

该数据集致力于解决机器人多视角视觉运动控制中的动作映射难题，其核心挑战在于异构传感器时序对齐与高维动作空间的有效表征。构建过程中需克服多路视频流同步压缩的技术瓶颈，同时需确保14维电机状态数据在长时间序列中的采样一致性。数据标注层面还面临动作片段边界划分与任务完成状态判定的语义连贯性问题。

常用场景

经典使用场景

在机器人学习领域，aloha_caterpillar_down25fps数据集以其多视角视觉数据和14维运动控制记录，为模仿学习算法提供了丰富的训练素材。该数据集通过25fps的高频采样，精确捕捉了机械臂操作任务的动态过程，成为开发端到端机器人策略模型的基准资源。研究者能够利用其同步记录的手腕摄像头与全局视角视频，构建从视觉感知到动作执行的完整映射关系。

解决学术问题

该数据集有效解决了机器人模仿学习中动作轨迹重建与状态转移建模的核心难题。通过提供包含电机状态、力矩反馈与多模态视觉观察的连续序列，它支持研究者验证基于深度学习的策略泛化能力。其结构化数据格式显著降低了复杂机器人任务中行为克隆算法的实现门槛，为研究动作空间连续性、状态观测完整性等基础问题提供了标准化实验平台。

衍生相关工作

受该数据集启发，学界涌现出多项基于时空一致性的机器人模仿学习研究。部分工作聚焦于跨视角视觉特征对齐方法，通过解耦视角不变的运动表征提升策略迁移性。另有研究利用其连续动作序列开发分层强化学习框架，将长期任务分解为可执行的子技能。这些衍生成果共同推动了多模态机器人学习理论的发展与完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集