seriintan/eval_act_spatialPE_v2

Name: seriintan/eval_act_spatialPE_v2
Creator: seriintan
Published: 2026-04-25 11:24:07
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/seriintan/eval_act_spatialPE_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，主要用于机器人技术领域。数据集包含12个episodes，共3031帧，涉及1个任务。数据以parquet格式存储，总大小为100MB，视频文件大小为200MB，帧率为30fps。数据集包含动作、观测状态、图像、时间戳、帧索引、episode索引、索引和任务索引等特征。动作和观测状态特征包括shoulder_pan.pos、shoulder_lift.pos、elbow_flex.pos、wrist_flex.pos、wrist_roll.pos和gripper.pos。图像特征为480x640x3的前视图像，视频编码为av1，像素格式为yuv420p，无音频。

This dataset was created using LeRobot and is primarily used in the field of robotics. It contains 12 episodes, totaling 3031 frames, involving 1 task. The data is stored in parquet format, with a total size of 100MB, video files size of 200MB, and a frame rate of 30fps. The dataset includes features such as action, observation state, images, timestamp, frame index, episode index, index, and task index. The action and observation state features include shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, and gripper.pos. The image features are 480x640x3 front-view images, with video encoding as av1, pixel format as yuv420p, and no audio.

提供机构：

seriintan

搜集汇总

数据集介绍

构建方式

该数据集基于 LeRobot 框架构建，面向机器人操作学习任务。数据通过“so_follower”机器人采集，包含 12 条完整轨迹，总计 3031 帧，帧率为 30 FPS。数据以 parquet 格式存储于分块文件中，视频则采用 AV1 编码的 mp4 格式，并遵循统一的元数据结构。数据集未划分训练与测试集，默认全部轨迹用于训练，便于端到端的行为克隆或模仿学习算法直接使用。

使用方法

数据集已集成至 LeRobot 生态，可通过 Hugging Face datasets 库直接加载。用户可调用 Hugging Face Spaces 提供的可视化工具对轨迹进行预览。适合用于训练基于 Transformer 或 CNN 的策略网络，如 ACT（Action Chunking Transformer）等模型。数据集兼容 Apache 2.0 许可证，便于学术研究及工业应用中的二次开发与分发。

背景与挑战

背景概述

eval_act_spatialPE_v2数据集由Hugging Face社区创建，依托LeRobot框架构建，专为机器人操控任务设计，发布于2024年。该数据集聚焦于空间位置编码（spatial Positional Encoding）在模仿学习中的评估，核心研究问题在于验证带有位置编码的动作条件变换器（ACT）模型在真实机器人操控中的泛化能力。数据集包含12个演示片段，共计3031帧，通过so_follower机器人平台采集，覆盖6自由度动作空间与视觉观测，为机器人学习领域提供标准化基准。其发布标志着对稀疏数据条件下机器人技能泛化性能的深入探究，对推动高性能机器人策略评估具有重要参考价值。

当前挑战

该数据集所解决的领域问题在于提升机器人在复杂环境下的空间理解能力，通过位置编码增强模型对物体空间关系的感知。然而构建过程中面临诸多挑战：1）数据采集因仅有30帧每秒的采样率而难以捕捉快速动作的细微变化；2）仅覆盖单一任务且样本量较小（12个片段），导致模型面临过拟合风险；3）机器人平台so_follower的关节控制存在固有延迟与噪声，影响状态-动作映射精度；4）视觉观测中深度信息的缺失增加了环境几何理解的难度，限制了对非结构化场景的适应性。这些构建难点共同构成了数据集在泛化性与鲁棒性评估上的核心挑战。

常用场景

经典使用场景

eval_act_spatialPE_v2数据集专为机器人模仿学习中的动作序列预测与空间位置编码研究而设计，尤其聚焦于基于视觉的运动规划任务。该数据集通过采集so_follower机器人执行单一操作任务的12个完整演示片段，包含3031帧高保真观测数据，其中前置摄像头以30帧/秒的速率捕获640×480分辨率视频，同时记录六自由度关节角度状态与对应动作指令。其典型应用场景在于训练基于Transformer架构的行为克隆模型，例如ACT（Action Chunking with Transformers）算法，利用空间位置编码增强机器人对位姿轨迹的泛化能力，从而在精细操作任务中实现高精度复现。

解决学术问题

该数据集有效应对了机器人学习领域中长期存在的两项核心挑战：其一，如何从小样本演示中高效提取具有空间一致性的运动模式，避免模型对特定初始位姿的过拟合；其二，如何融合多模态感知信息（视觉图像与本体状态）以实现鲁棒的策略迁移。通过提供标准化的时间同步数据与结构化特征命名，研究者得以系统比较不同空间编码策略（如正弦位置编码、学习式嵌入）在模仿学习中的表现差异，进而推动对动作生成过程中几何先验作用机制的理解。该数据集的意义在于填补了开源社区中专门用于量化评估空间位置表示对机器人策略泛化性能影响的资源空白。

实际应用

在实际机器人部署场景中，该数据集所支持的模型可直接应用于工业装配、精细抓取与医疗辅助操作等需高精度轨迹复现的领域。例如，基于此数据集训练的ACT算法模型，能够使协作机器人仅通过少量人类示教便学会完成如插销接入、电子元件装配等重复性任务，且对工作台位置偏移、光照变化等环境扰动展现出良好的适应性。此外，其视频与状态数据格式兼容LeRobot生态，便于迁移至仿真环境进行安全性验证，加速了从实验室算法到产线终端的落地进程。

数据集最近研究