TheMuz/eval_kirby_main_20260501_1934

Name: TheMuz/eval_kirby_main_20260501_1934
Creator: TheMuz
Published: 2026-05-02 13:15:31
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/TheMuz/eval_kirby_main_20260501_1934

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，属于机器人领域。数据集包含20个episodes，共16321帧，涉及1个任务。数据特征包括机器人动作（6个关节位置）、观测状态（6个关节位置）、顶部和正面视角的图像（480x640分辨率，30fps）、时间戳等。数据以parquet格式存储，视频以mp4格式存储。数据集采用apache-2.0许可证。

This dataset was created using LeRobot and belongs to the robotics domain. It contains 20 episodes with a total of 16,321 frames and involves 1 task. The features include robot actions (6 joint positions), observation states (6 joint positions), top and front view images (480x640 resolution, 30fps), timestamps, etc. The data is stored in parquet format, and videos are stored in mp4 format. The dataset is licensed under apache-2.0.

提供机构：

TheMuz

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专为机器人学习任务设计。通过模拟so_follower型机器人的操作轨迹，数据采集以30帧每秒的速率进行，共包含20个完整episode，累计16321帧图像。数据以parquet格式存储，管理方式采用分块（chunk）策略，每块容量1000帧，同时将高清视频（480×640像素）以AV1编码独立归档于video目录，确保大规模序列数据的高效存取与扩展。

特点

数据集聚焦于单一任务类型的精细化行为记录，其观测空间纳入了top和front两个视角的视觉图像，以及机器人关节状态（6维动作参数），形成多模态联合表征。每帧配有精确时间戳与帧索引，便于时序分析。动作与状态空间保持一致，支持从状态到动作的直接映射学习。视频数据采用AV1编码压縮，提升了存储经济性。

使用方法

通过LeRobot库可直接加载该数据集，使用默认配置即可解析parquet与视频文件。训练时可设置split为'train'，因所有20个episode均划入训练集。可利用提供的60维状态向量和双视角图像作为模型输入，以6维关节动作为预测目标。建议利用chunks_size参数进行流式读取以适应内存限制，并借助内置可视化工具对episode进行播放与验证。

背景与挑战

背景概述

该数据集由TheMuz于2026年5月1日创建，采用Apache-2.0许可协议发布，依托HuggingFace LeRobot框架构建，聚焦于机器人模仿学习领域。核心研究问题在于如何通过少量示范数据训练机器人完成精细操作任务，数据集以so_follower型机器人为载体，记录了单个任务共20个回合、16321帧的六自由度动作与状态信息，并配备双视角（顶部和前方）视频流。作为LeRobot生态中的评估基准示例，该数据集为开发者在标准环境下验证模仿学习算法（如行为克隆、扩散策略）的性能提供了小型但完整的测试平台，有助于推动可复现的机器人学习研究。

当前挑战

当前面临的首要挑战是解决机器人领域数据稀缺与泛化性不足的问题：仅20个示范回合难以覆盖复杂操作中多样的物体姿态与环境光照变化，模型易过拟合并缺乏对未见场景的适应能力。构建过程中亦存在显著困难，包括高保真传感器同步采集的工程挑战，如30FPS下多路视频与动作序列的严格对齐；此外，遥操作示教精度与人类演示者的一致性直接决定数据质量，而单任务设定又限制了数据集在跨任务迁移学习研究中的适用性，亟需更高效的数据扩增与多任务框架以拓展其应用边界。

常用场景

经典使用场景

在机器人学习与操控领域，该数据集以SO Follower机械臂为硬件平台，依托LeRobot框架构建，记录了单一任务下20个完整执行回合、超过1.6万帧的精细运动轨迹。每个回合均包含高精度六维关节控制指令（如肩部、肘部、腕部及夹爪动作）与对应观测状态，并辅以顶部与前方双视角的30帧每秒RGB视频流。研究者可借此开展模仿学习中的行为克隆研究，将专家示范的视觉-运动映射关系泛化至新场景，亦可将其作为离线强化学习任务的标准测试床，探索在无交互环境下从固定演示集中提取最优策略的算法效能。

衍生相关工作

围绕此类精细操作数据集，学界已催生出一系列具有影响力的衍生工作。在算法层面，分阶段动作解耦策略与基于扩散过程的动作生成模型被先后提出，用以解决高维连续空间中小样本过拟合问题。在系统层面，结合大规模预训练视觉编码器的端到端模仿学习框架在此类基准上取得了显著性能突破。此外，数据增强手法如时域重采样与视角随机化也被系统性地引入，有效扩展了有限演示数据的泛化边界。这些工作的演进，共同推动了机器人学习领域从专用范式向通用技能基构建的范式转变。

数据集最近研究