TeamCraft
收藏arXiv2024-12-07 更新2024-12-10 收录
下载链接:
https://github.com/teamcraft-bench/teamcraft
下载链接
链接失效反馈官方服务:
资源简介:
TeamCraft是由加利福尼亚大学洛杉矶分校开发的一个多模态多智能体基准数据集,基于开放世界视频游戏Minecraft构建。该数据集包含55,000个任务变体,通过多模态提示进行任务指定,并生成专家演示用于模仿学习。数据集内容丰富,包括复杂的视觉背景、多样的物体类别和复杂的制作序列,旨在评估多模态、多任务、多智能体系统在不同泛化场景下的性能。数据集的创建过程利用了Minecraft的开放世界特性,通过程序化生成大量数据,以测试模型在处理新颖目标、场景和未见过的智能体数量时的泛化能力。该数据集主要应用于多智能体系统的研究和开发,旨在解决多智能体在复杂动态环境中协作和任务规划的问题。
TeamCraft is a multimodal multi-agent benchmark dataset developed by the University of California, Los Angeles, built on the open-world video game Minecraft. This dataset contains 55,000 task variants, where tasks are specified via multimodal prompts, and expert demonstrations are generated for imitation learning. Featuring rich content including complex visual backgrounds, diverse object categories and intricate crafting sequences, this dataset aims to evaluate the performance of multimodal, multi-task and multi-agent systems across various generalized scenarios. The dataset's creation leverages the open-world nature of Minecraft to programmatically generate large-scale data, to test models' generalization capabilities when handling novel goals, scenes and unseen numbers of agents. This dataset is primarily utilized for the research and development of multi-agent systems, with the goal of addressing challenges in multi-agent collaboration and task planning within complex dynamic environments.
提供机构:
加利福尼亚大学洛杉矶分校
创建时间:
2024-12-07
原始信息汇总
TeamCraft 数据集概述
数据集简介
TeamCraft 是一个基于 Minecraft 游戏的复杂多模态多智能体系统基准测试数据集。该数据集旨在促进多智能体系统研究,提供多模态任务规范和观察,包括环境的三视图图和语言指令。数据集包含 55,000 个程序生成的演示,涵盖超过 50 种对象和多种场景,任务类型包括建筑、熔炼和农业等。
数据集内容
- 任务类型: 建筑、熔炼、农业等。
- 任务数量: 55,000 个程序生成的演示。
- 对象种类: 超过 50 种对象。
- 场景多样性: 广泛多样的场景。
数据集下载
数据集和预训练模型托管在 Hugging Face 上,下载链接如下:
| 模型与数据集 | 下载链接 |
|---|---|
| TeamCraft-VLA-7B-Cen | Link |
| TeamCraft-VLA-7B-Dec | Link |
| TeamCraft-Data-Overview | Link |
| TeamCraft-Data-Cen | Link |
| TeamCraft-Data-Dec | Link |
系统要求
推理配置
-
PC:
- CPU: Intel Core i9-14900KF @3.2 GHz (24 cores, 32 threads)
- 内存: 128 GB RAM
- 磁盘: 100 GB 可用空间
- GPU: 1× NVIDIA RTX A6000 ADA
-
工作站:
- CPU: AMD Ryzen Threadripper 3990X @2.2 GHz (64 cores, 128 threads)
- 内存: 252 GB RAM
- 磁盘: 100 GB 可用空间
- GPU: 1× NVIDIA RTX A6000
-
4 位推理:
- CPU: Intel Core i7-12700K @3.6 GHz (12 cores, 20 threads)
- 内存: 48 GB RAM
- 磁盘: 100 GB 可用空间
- GPU: 1× NVIDIA RTX 4070 Super
训练配置
- AWS EC2 实例:
- 实例类型: p4d.24xlarge
- CPU: 96 vCPUs @3 GHz
- 内存: 1,152 GiB
- GPU: 8× NVIDIA A100-SXM4-40GB
搜集汇总
数据集介绍

构建方式
TeamCraft数据集构建于广受欢迎的开放世界视频游戏Minecraft之上,旨在评估多模态多智能体系统的性能。该数据集包含55,000个任务变体,这些任务由多模态提示指定,并生成程序化的专家演示用于模仿学习。数据集的设计精心考虑了模型泛化能力的评估,涵盖了多种任务配置,如对象空间排列、目标配置、任意数量的智能体以及异构智能体能力。
特点
TeamCraft数据集的显著特点在于其多模态任务规范、程序化生成的专家演示以及对模型泛化能力的系统评估。数据集中的任务设计复杂,涉及视觉认知、空间推理和协作协调等多个方面。此外,数据集支持集中式和分散式控制,模拟了现实世界中智能体在信息受限情况下的操作场景。
使用方法
TeamCraft数据集适用于开发和评估多模态多智能体系统。研究者可以使用该数据集训练模型,通过模仿学习从专家演示中获取知识,并评估模型在处理新颖目标、场景和智能体数量时的泛化能力。数据集的开源平台和训练评估代码为研究者提供了便利,确保了研究的可重复性和社区的进一步贡献。
背景与挑战
背景概述
TeamCraft, a pioneering benchmark for multi-modal multi-agent systems, was introduced in 2024 by researchers from the University of California, Los Angeles and Amazon AGI. This dataset is designed to evaluate the performance of generalizable multi-modal collaborative agents within the visually-rich environment of Minecraft. The core research question revolves around how embodied agents can effectively understand multi-modal observations and task specifications to collaborate in dynamic environments. TeamCraft features 55,000 task variants, procedurally-generated expert demonstrations, and protocols to assess model generalization capabilities. The dataset has significantly influenced the field by providing a comprehensive platform for testing and improving multi-agent systems' collaborative skills.
当前挑战
The primary challenge addressed by TeamCraft is the generalization of multi-modal, multi-task, multi-agent systems to novel goal configurations, unseen numbers of agents, and new types of visual backgrounds. The dataset's creation process involved overcoming several hurdles, including the complexity of multi-agent coordination, the need for detailed scene understanding, and the management of diverse task configurations. Additionally, the benchmark highlights the limitations of existing models in handling out-of-distribution scenarios, emphasizing the need for further research in this area. The dataset also faces challenges in ensuring that models can effectively transfer learned skills across different settings and adapt to the dynamic nature of collaborative tasks.
常用场景
经典使用场景
TeamCraft数据集的经典使用场景在于评估多模态多智能体系统在复杂任务中的协作能力。通过在Minecraft这一开放世界视频游戏中构建的55,000个任务变体,该数据集能够系统地测试智能体在多模态观察和任务规范下的表现,特别是在处理新颖目标配置、未见过的场景和不同数量的智能体时的泛化能力。
实际应用
TeamCraft数据集的实际应用场景广泛,特别是在需要多智能体协作的领域,如虚拟现实、游戏开发和机器人技术。通过在Minecraft中的模拟实验,开发者可以测试和优化多智能体系统在复杂任务中的表现,从而为实际应用中的协作机器人、虚拟助手和游戏AI提供强有力的支持。此外,该数据集还可以用于培训和评估人工智能算法在多模态环境中的适应性和鲁棒性。
衍生相关工作
TeamCraft数据集的发布催生了一系列相关研究工作,特别是在多模态多智能体系统的领域。例如,基于TeamCraft的研究已经探索了如何通过多模态提示来指导智能体交互,以及如何利用视觉信息来增强智能体的协作能力。此外,该数据集还激发了对多智能体系统在不同控制设置下的性能比较研究,以及对现有模型在处理复杂和动态环境时的局限性分析。这些研究工作不仅扩展了TeamCraft的应用范围,也为未来的多智能体系统研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成



