AGNOSTOS

github2025-05-26 更新2025-05-27 收录

下载链接：

https://github.com/jiaming-zhou/X-ICM

下载链接

链接失效反馈

官方服务：

资源简介：

AGNOSTOS是一个模拟操作基准测试数据集，旨在严格评估视觉-语言-动作模型在跨任务零样本泛化中的表现。该数据集包含18个用于训练的可见任务和23个用于跨任务测试的未见任务。

AGNOSTOS is a simulated manipulation benchmark dataset designed to rigorously evaluate vision-language-action (VLA) models on their cross-task zero-shot generalization performance. This dataset includes 18 seen tasks for training and 23 unseen tasks for cross-task testing.

创建时间：

2025-05-21

原始信息汇总

AGNOSTOS数据集概述

项目背景

项目名称：AGNOSTOS
目标：评估Vision-Language-Action模型在跨任务零样本泛化能力
提出方法：Cross-Task In-Context Manipulation (X-ICM)

数据集组成

训练数据

任务数量：18个seen tasks
数据量：140G（分五个文件）
下载链接：

测试数据

任务数量：23个unseen tasks
数据量：20.2GB（单个文件）
下载链接：unseen_tasks.tar

数据处理

合并seen tasks文件： bash cat seen_tasks.part_* > seen_tasks.tar
解压文件： bash tar -xvf seen_tasks.tar tar -xvf unseen_tasks.tar

模型相关

预训练模型

模型名称：dynamics diffusion model
下载链接：dynamics_diffusion.tar

评估结果

X-ICM (7B)：
- 平均成功率：23.5%
- 失败任务数：2个
X-ICM (72B)：
- 平均成功率：30.1%
- 失败任务数：0个

引用

bibtex @article{zhou2025exploring, title={Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization}, author={Zhou, Jiaming and Ye, Ke and Liu, Jiayi and Ma, Teli and Wang, Zifang and Qiu, Ronghe and Lin, Kun-Yu and Zhao, Zhilin and Liang, Junwei}, journal={arXiv preprint arXiv:2505.15660}, year={2025} }

搜集汇总

数据集介绍

构建方式

AGNOSTOS数据集作为视觉-语言-动作（VLA）模型跨任务零样本泛化能力的评估基准，其构建过程体现了严谨的仿真实验设计理念。研究团队通过模拟环境构建了18个训练任务和23个测试任务，共计140GB训练数据和20.2GB测试数据，采用分布式文件存储策略确保数据完整性。数据集通过HuggingFace平台发布，支持MD5校验和符号链接等专业数据处理方式，为多模态机器学习研究提供了标准化的评估框架。

使用方法

使用该数据集需遵循标准化的评估流程。研究者可通过Docker或手动方式配置仿真环境，下载预处理好的任务数据。评估过程支持自定义大语言模型（如Qwen2.5.7B）和动态扩散模型的集成，提供脚本控制随机种子、测试轮次等参数。对于新型VLA模型，数据集允许通过定制agent.py文件实现模型加载和推理逻辑，并支持调整输入图像尺寸等关键参数以适应不同模型架构。

背景与挑战

背景概述

AGNOSTOS数据集由香港科技大学（广州）等机构的研究团队于2025年推出，旨在探索视觉-语言-动作模型在跨任务零样本泛化中的极限表现。该数据集通过模拟操作任务构建了一个综合性基准测试平台，包含18个训练任务和23个测试任务，总数据量超过160GB。其核心研究问题聚焦于多模态模型在未见任务上的泛化能力，为解决机器人操作任务中的领域适应性问题提供了新的评估标准。作为首个系统性评估跨任务泛化能力的基准，AGNOSTOS为视觉语言动作模型的性能提升和算法创新奠定了重要基础。

当前挑战

在解决领域问题方面，AGNOSTOS面临的主要挑战在于如何突破现有视觉-语言-动作模型在跨任务场景下的性能瓶颈，特别是在处理复杂操作指令与视觉场景的语义对齐问题上。数据构建过程中的挑战包括：大规模仿真环境数据的采集与标注需要精确控制物理参数；确保训练任务与测试任务间具有足够的语义差异但又不失相关性；以及处理多模态数据（视觉、语言、动作）的时空对齐问题。这些挑战对数据集的代表性和模型的泛化能力评估提出了严格要求。

常用场景

经典使用场景

在视觉-语言-动作（VLA）模型的研究领域，AGNOSTOS数据集被广泛应用于评估模型在跨任务零样本泛化能力上的表现。通过18个训练任务和23个测试任务的组合，该数据集为研究者提供了一个标准化的测试平台，用于验证模型在未见任务上的适应性和泛化性能。经典使用场景包括在模拟环境中测试模型对复杂指令的理解和执行能力，以及在多模态输入下的动作生成效果。

解决学术问题

AGNOSTOS数据集解决了视觉-语言-动作模型在跨任务泛化中的关键学术问题。传统模型往往在训练任务上表现良好，但在未见任务上表现不佳。该数据集通过提供多样化的任务和严格的测试标准，帮助研究者识别模型的局限性，并推动新型泛化方法的发展。其意义在于为多模态模型的评估提供了可重复和可比较的基准，促进了该领域的科学进步。

实际应用

在实际应用中，AGNOSTOS数据集为机器人操作和自动化系统的开发提供了重要支持。通过模拟真实世界中的复杂任务场景，该数据集能够帮助开发者优化视觉-语言-动作模型的性能，使其在家庭服务、工业自动化等领域中具备更强的适应能力。例如，模型可以学习如何根据自然语言指令完成物品抓取、摆放等操作，从而提升智能机器人的实用性和可靠性。

数据集最近研究