HSP-IIT/eval_act_roboarena_HRII

Name: HSP-IIT/eval_act_roboarena_HRII
Creator: HSP-IIT
Published: 2026-05-04 08:38:23
License: 暂无描述

Hugging Face2026-05-04 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/HSP-IIT/eval_act_roboarena_HRII

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，属于机器人领域。数据集包含1个剧集、80帧和1个任务，数据文件大小为100MB，视频文件大小为200MB，帧率为10fps。数据集结构包括动作（位置、方向、夹持器状态）、观察状态（位置、方向、夹持器状态）、图像（手腕和左侧RGB，分辨率为480x640，3通道）、时间戳、帧索引、剧集索引、索引和任务索引等特征。数据以parquet格式存储，视频以mp4格式存储。

This dataset was created by LeRobot and belongs to the robotics domain. It contains 1 episode, 80 frames, and 1 task, with a data file size of 100MB and a video file size of 200MB, at a frame rate of 10fps. The dataset structure includes features such as action (position, orientation, gripper state), observation state (position, orientation, gripper state), images (wrist and left RGB, resolution 480x640, 3 channels), timestamp, frame index, episode index, index, and task index. The data is stored in parquet format, and videos are stored in mp4 format.

提供机构：

HSP-IIT

搜集汇总

数据集介绍

构建方式

该数据集依托LeRobot框架构建，专为机器人操作技能的评估与模仿学习设计。数据采集自定制机械臂（custom_manipulator），以10帧每秒的频率记录单条完整轨迹，包含80帧连续运动序列。数据以Parquet格式存储，并辅以AV1编码的高清视频，同步记录腕部与左侧RGB摄像头视角的观测影像。每个时间步均保存了7维动作指令（含位置、姿态与夹爪状态）以及对应的机器人本体状态，确保动作与感知信息的严格对齐。数据集被划分为单一的训练分片，便于直接加载与模型微调。

特点

该数据集的核心特点在于其紧凑而精密的评估用途。它专注于单一任务场景，总帧数仅为80，但通过多模态信息——包括高保真视觉观测、精确的本体状态与动作标签——为机器人模仿学习提供了完整的闭环评估基准。数据采用LeRobot标准格式，包含清晰的索引、时间戳与任务标签，支持直接可视化与回放。此外，所有数据均以Apache-2.0许可证开放，降低了研究与复现的门槛，特别适合验证算法在有限样本下的动作预测与泛化能力。

使用方法

用户可通过LeRobot库便捷地加载与使用该数据集。推荐调用LeRobot的数据集API，直接指定数据集路径（HSP-IIT/eval_act_roboarena_HRII）即可自动化加载Parquet与视频文件，获得统一的字典格式数据。数据集适合用于模仿学习模型的评估流程，例如加载预训练的ACT（Action Chunking with Transformers）模型，以帧序列为输入，比对预测动作与地面真值。用户亦可利用LeRobot提供的在线可视化工具，在浏览器中直接播放轨迹与多视角视频，快速检验数据质量与任务细节。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习在复杂操作任务中的泛化能力始终是核心研究议题。eval_act_roboarena_HRII数据集由HSP-IIT机构基于LeRobot框架创建，旨在为定制化机械臂的精细操作提供标准化的评估基准。该数据集采集自一台自定义机械臂，包含单任务单轮次共80帧高频率视觉-状态序列数据，提供了七维动作空间（包含三维位置、三维姿态与夹爪控制）及双视角视觉输入（左视角与腕部RGB摄像头，分辨率达480×640）。数据集发布于2024年前后，其所依托的ACT算法架构在机器人模仿学习领域具有代表性，通过将连续动作空间离散化为联合分布预测，显著提升了多模态动作生成的稳定性。该数据集的提出为机器人策略模型的零样本泛化评估提供了可重复的实验范本。

当前挑战

当前该数据集面临的核心挑战体现在三个层面。其一，领域问题层面：机械臂在非结构化环境中执行精密操作时，高维连续动作空间与低延迟控制需求之间存在固有矛盾，单轮次80帧的有限示例难以覆盖真实场景中的多变扰动与长尾事件。其二，构建过程中的数据稀缺性：仅包含1条完整轨迹（1个episode）的数据规模限制了深度神经网络对潜在动作分布的学习，使得模型易陷入对单次演示的过拟合而丧失动态适应性。其三，多模态融合的复杂度：虽然提供了双视角RGB视频与状态信息，但帧率限制在10 FPS背景下，如何有效对齐视觉流与运动学序列、并处理因控制频率差异导致的时序异步问题，仍是提升策略鲁棒性的技术瓶颈。

常用场景

经典使用场景

在机器人学习领域，eval_act_roboarena_HRII数据集被广泛用于训练和评估基于视觉-运动耦合的模仿学习模型。该数据集包含来自定制机械臂的高精度7维动作数据（位置、姿态及夹爪开合）与多视角视觉观测（腕部RGB和左侧RGB图像），为研究从像素直接到关节空间映射的端到端策略提供了标准化的基准平台。研究者常利用其80帧连续回合轨迹，验证算法在有限样本下的泛化能力与操作精度。

衍生相关工作

以此数据集为基石，衍生出若干关键研究方向。经典工作包括基于Transformer架构的ACT（Action Chunking with Transformers）策略，其利用时序注意力机制平滑机器人动作序列；另一分支探索了视觉预训练模型（如ResNet、ViT）与行为克隆的融合，以提升视觉表征的鲁棒性。此外，数据集还催生了针对机器人策略的离线评估基准，以及利用仿真数据增强真实场景泛化能力的混合训练方法，深化了数据驱动控制的理论与实践边界。

数据集最近研究