AV ALOHA Simulation Datasets

github2025-07-22 更新2025-07-23 收录

下载链接：

https://github.com/ian-chuang/gaze-av-aloha

下载链接

链接失效反馈

官方服务：

资源简介：

AV-ALOHA模拟数据集包含多个机器人操作任务的数据，每个数据集都包含超过100个集数，并且附带了人类眼动追踪注释。数据集包括插桩插入、方块转移、穿针引线、倒试管、钩取包裹和插槽插入等任务。

The AV-ALOHA simulation dataset encompasses data from various robotic manipulation tasks, with each dataset containing over 100 episodes and accompanied by human eye-tracking annotations. The dataset includes tasks such as pin insertion, block transfer, threading, inverted tube pouring, package hooking, and slot insertion.

创建时间：

2025-06-23

原始信息汇总

数据集概述

数据集基本信息

项目名称: Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers
项目网站: https://ian-chuang.github.io/gaze-av-aloha/
论文地址: https://arxiv.org/abs/2507.15833
代码仓库: https://github.com/ian-chuang/gaze-av-aloha

数据集列表

数据集名称	包含眼动数据	样本数	可视化链接
AV ALOHA Sim Peg Insertion	是	100	View
AV ALOHA Sim Cube Transfer	是	200	View
AV ALOHA Sim Thread Needle	是	200	View
AV ALOHA Sim Pour Test Tube	是	100	View
AV ALOHA Sim Hook Package	是	100	View
AV ALOHA Sim Slot Insertion	是	100	View

数据集格式

原始格式: LeRobot数据集格式
优化格式: 自定义AVAlohaDataset格式（基于Zarr）

预训练模型

Vision Transformers

眼动模型

支持的任务配置

av_aloha_sim_cube_transfer
av_aloha_sim_peg_insertion
av_aloha_sim_slot_insertion
av_aloha_sim_hook_package
av_aloha_sim_pour_test_tube
av_aloha_sim_thread_needle

搜集汇总

数据集介绍

构建方式

在机器人学习领域，AV ALOHA仿真数据集通过创新的数据采集方法构建而成。研究团队采用AV-ALOHA模拟平台，同步记录人类操作者的眼球追踪数据与双臂机器人演示动作，构建了包含六个精细操作任务的数据集。每个数据集包含100-200个完整操作片段，通过Meta Quest Pro头显设备采集的立体视觉数据与眼动数据精确对齐，并采用LeRobot数据集格式进行标准化存储，确保数据的可复用性和可扩展性。

特点

该数据集最显著的特征在于其融合了人类注视行为与机器人操作的多模态数据。每个任务场景如插针、立方体转移等都配有精确的眼动追踪标注，为研究注意力机制在机器人控制中的应用提供了独特资源。数据集采用分层存储结构，原始数据与经过Zarr格式转换的优化版本并存，既保留了完整的时空信息，又提升了训练时的数据读取效率。交互式可视化功能进一步增强了数据的可解释性。

使用方法

使用该数据集需先配置Python 3.10环境并安装指定依赖库。通过Hugging Face平台获取数据集后，可利用提供的转换脚本将其转为高效的Zarr格式。研究人员可选择端到端的Fov-Act训练模式直接利用注视数据，或采用Fov-UNet两阶段方法先预训练注视模型。数据集支持四种基准模型的对比实验，包括全分辨率ViT、低分辨率ViT以及两种基于人类注视机制的变体，通过标准化训练脚本确保实验可复现性。

背景与挑战

背景概述

AV ALOHA Simulation Datasets是由Ian Chuang、Andrew Lee等研究人员于2025年提出的一个创新性机器人学习数据集，旨在通过结合人类注视行为与仿生视觉变换器，推动机器人策略学习的高效性与鲁棒性研究。该数据集依托AV-ALOHA仿真平台构建，包含六类双手机器人操作任务的同步眼动追踪数据，如插钉、立方体转移等精细操作场景。其核心创新在于引入人类注视机制的仿生视觉框架，使视觉变换器计算量降低94%，显著加速了训练与推理过程，为机器人模仿学习领域提供了新的研究范式。

当前挑战

该数据集主要解决机器人视觉控制中计算效率与任务精度难以兼顾的经典矛盾。传统全分辨率视觉变换器存在计算冗余问题，而低分辨率方案又易丢失关键细节信息。构建过程中面临双重挑战：在技术层面，需精确同步多模态数据流，确保机械臂运动轨迹与眼动数据的时空对齐；在算法层面，需设计适应注视点动态变化的非均匀视觉采样机制，平衡计算效率与任务相关区域的视觉保真度。此外，不同操作任务间注视模式的显著差异，也要求模型具备跨任务的通用表征能力。

常用场景

经典使用场景

在机器人学习领域，AV ALOHA Simulation Datasets通过同步人类眼动追踪数据与双手机器人操作演示，为研究人机协作中的视觉注意力机制提供了独特资源。该数据集特别适用于开发基于人类注视模式的仿生视觉算法，例如在精细操作任务中模拟人类视觉注意力的动态分配过程，为机器人策略学习提供生物启发的计算范式。

实际应用

在工业自动化场景中，该数据集支撑了装配线分拣、精密零件插接等需要视觉引导的操作系统开发。医疗机器人领域利用其眼动-操作映射特性，正在研发微创手术辅助系统，通过外科医生的注视模式优化机械臂运动轨迹，显著提升手术操作的精准度和安全性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集