AGNOSTOS
收藏github2025-05-26 更新2025-05-27 收录
下载链接:
https://github.com/jiaming-zhou/X-ICM
下载链接
链接失效反馈官方服务:
资源简介:
AGNOSTOS是一个模拟操作基准测试数据集,旨在严格评估视觉-语言-动作模型在跨任务零样本泛化中的表现。该数据集包含18个用于训练的可见任务和23个用于跨任务测试的未见任务。
AGNOSTOS is a simulated manipulation benchmark dataset designed to rigorously evaluate vision-language-action (VLA) models on their cross-task zero-shot generalization performance. This dataset includes 18 seen tasks for training and 23 unseen tasks for cross-task testing.
创建时间:
2025-05-21
原始信息汇总
AGNOSTOS数据集概述
项目背景
- 项目名称:AGNOSTOS
- 目标:评估Vision-Language-Action模型在跨任务零样本泛化能力
- 提出方法:Cross-Task In-Context Manipulation (X-ICM)
数据集组成
训练数据
- 任务数量:18个seen tasks
- 数据量:140G(分五个文件)
- 下载链接:
测试数据
- 任务数量:23个unseen tasks
- 数据量:20.2GB(单个文件)
- 下载链接:unseen_tasks.tar
数据处理
-
合并seen tasks文件: bash cat seen_tasks.part_* > seen_tasks.tar
-
解压文件: bash tar -xvf seen_tasks.tar tar -xvf unseen_tasks.tar
模型相关
预训练模型
- 模型名称:dynamics diffusion model
- 下载链接:dynamics_diffusion.tar
评估结果
- X-ICM (7B):
- 平均成功率:23.5%
- 失败任务数:2个
- X-ICM (72B):
- 平均成功率:30.1%
- 失败任务数:0个
引用
bibtex @article{zhou2025exploring, title={Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization}, author={Zhou, Jiaming and Ye, Ke and Liu, Jiayi and Ma, Teli and Wang, Zifang and Qiu, Ronghe and Lin, Kun-Yu and Zhao, Zhilin and Liang, Junwei}, journal={arXiv preprint arXiv:2505.15660}, year={2025} }
搜集汇总
数据集介绍

构建方式
AGNOSTOS数据集作为视觉-语言-动作(VLA)模型跨任务零样本泛化能力的评估基准,其构建过程体现了严谨的仿真实验设计理念。研究团队通过模拟环境构建了18个训练任务和23个测试任务,共计140GB训练数据和20.2GB测试数据,采用分布式文件存储策略确保数据完整性。数据集通过HuggingFace平台发布,支持MD5校验和符号链接等专业数据处理方式,为多模态机器学习研究提供了标准化的评估框架。
使用方法
使用该数据集需遵循标准化的评估流程。研究者可通过Docker或手动方式配置仿真环境,下载预处理好的任务数据。评估过程支持自定义大语言模型(如Qwen2.5.7B)和动态扩散模型的集成,提供脚本控制随机种子、测试轮次等参数。对于新型VLA模型,数据集允许通过定制agent.py文件实现模型加载和推理逻辑,并支持调整输入图像尺寸等关键参数以适应不同模型架构。
背景与挑战
背景概述
AGNOSTOS数据集由香港科技大学(广州)等机构的研究团队于2025年推出,旨在探索视觉-语言-动作模型在跨任务零样本泛化中的极限表现。该数据集通过模拟操作任务构建了一个综合性基准测试平台,包含18个训练任务和23个测试任务,总数据量超过160GB。其核心研究问题聚焦于多模态模型在未见任务上的泛化能力,为解决机器人操作任务中的领域适应性问题提供了新的评估标准。作为首个系统性评估跨任务泛化能力的基准,AGNOSTOS为视觉语言动作模型的性能提升和算法创新奠定了重要基础。
当前挑战
在解决领域问题方面,AGNOSTOS面临的主要挑战在于如何突破现有视觉-语言-动作模型在跨任务场景下的性能瓶颈,特别是在处理复杂操作指令与视觉场景的语义对齐问题上。数据构建过程中的挑战包括:大规模仿真环境数据的采集与标注需要精确控制物理参数;确保训练任务与测试任务间具有足够的语义差异但又不失相关性;以及处理多模态数据(视觉、语言、动作)的时空对齐问题。这些挑战对数据集的代表性和模型的泛化能力评估提出了严格要求。
常用场景
经典使用场景
在视觉-语言-动作(VLA)模型的研究领域,AGNOSTOS数据集被广泛应用于评估模型在跨任务零样本泛化能力上的表现。通过18个训练任务和23个测试任务的组合,该数据集为研究者提供了一个标准化的测试平台,用于验证模型在未见任务上的适应性和泛化性能。经典使用场景包括在模拟环境中测试模型对复杂指令的理解和执行能力,以及在多模态输入下的动作生成效果。
解决学术问题
AGNOSTOS数据集解决了视觉-语言-动作模型在跨任务泛化中的关键学术问题。传统模型往往在训练任务上表现良好,但在未见任务上表现不佳。该数据集通过提供多样化的任务和严格的测试标准,帮助研究者识别模型的局限性,并推动新型泛化方法的发展。其意义在于为多模态模型的评估提供了可重复和可比较的基准,促进了该领域的科学进步。
实际应用
在实际应用中,AGNOSTOS数据集为机器人操作和自动化系统的开发提供了重要支持。通过模拟真实世界中的复杂任务场景,该数据集能够帮助开发者优化视觉-语言-动作模型的性能,使其在家庭服务、工业自动化等领域中具备更强的适应能力。例如,模型可以学习如何根据自然语言指令完成物品抓取、摆放等操作,从而提升智能机器人的实用性和可靠性。
数据集最近研究
最新研究方向
在视觉-语言-动作(VLA)模型的研究领域,AGNOSTOS数据集的推出为跨任务零样本泛化能力的评估提供了全新的基准。该数据集通过18个训练任务和23个测试任务,系统性地探索了模型在未知任务中的表现,为多模态智能体的泛化能力设定了新的研究标准。近期研究聚焦于如何利用跨任务上下文操作(X-ICM)方法提升模型的泛化性能,尤其是在动态扩散模型与大型语言模型(如Qwen2.5.7B.instruct)的协同优化方面取得了显著进展。这一方向不仅推动了机器人操作任务的智能化水平,也为多模态学习的理论框架提供了实证基础。
以上内容由遇见数据集搜集并总结生成



