COMMA

Name: COMMA
Creator: 威斯康星大学麦迪逊分校
Published: 2024-10-10 10:49:47
License: 暂无描述

arXiv2024-10-10 更新2024-10-12 收录

下载链接：

http://arxiv.org/abs/2410.07553v1

下载链接

链接失效反馈

官方服务：

资源简介：

COMMA是由威斯康星大学麦迪逊分校和南京大学共同创建的一个多模态多智能体协作基准数据集。该数据集包含10个精心设计的协作谜题，每个谜题有数千种独特解法。数据集旨在评估多模态多智能体系统在语言交流中的协作表现，特别关注于不同智能体在信息不对称情况下的有效沟通和协作。创建过程模拟了现实世界中的协作场景，如炸弹拆除游戏，通过多轮对话和多模态信息处理来解决复杂任务。COMMA的应用领域广泛，特别是在需要多智能体协作和隐私保护的敏感数据处理场景中，如医疗保健和科学发现。

COMMA is a multimodal multi-agent collaboration benchmark dataset jointly created by the University of Wisconsin-Madison and Nanjing University. This dataset contains 10 meticulously designed collaborative puzzles, each featuring thousands of unique solutions. It is designed to evaluate the collaborative performance of multimodal multi-agent systems during linguistic communication, with a particular emphasis on effective communication and collaboration among agents in scenarios of information asymmetry. Its development process simulates real-world collaborative scenarios, such as the bomb defusal game, where agents resolve complex tasks via multi-turn dialogues and multimodal information processing. COMMA has broad application potential, especially in sensitive data processing scenarios requiring multi-agent collaboration and privacy protection, such as healthcare and scientific discovery.

提供机构：

威斯康星大学麦迪逊分校

创建时间：

2024-10-10

搜集汇总

数据集介绍

构建方式

COMMA数据集通过模拟多模态多智能体系统在协作任务中的语言交流，构建了一系列复杂的协作谜题游戏。这些游戏场景通常涉及两名玩家，各自拥有不同的、互补的信息。例如，在炸弹拆除游戏中，一名玩家拥有炸弹的详细信息，而另一名玩家则拥有拆除手册。通过这种设计，数据集旨在全面评估多模态多智能体系统在语言交流和协作任务中的表现。

特点

COMMA数据集的显著特点在于其强调多模态信息处理和多智能体之间的语言交流。数据集包含10个不同的、易于定制的谜题，每个谜题都有数千种独特的解决方案。此外，数据集还区分了AI-AI和AI-Human两种设置，以评估不同模型在智能体间协作和与人类协作中的表现。

使用方法

使用COMMA数据集时，研究者可以通过模拟智能体间的对话和协作来评估模型的性能。数据集提供了详细的谜题描述和解决方案手册，以及用于评估的多种性能指标，如成功率、部分成功率和平均对话长度。研究者可以利用这些数据来训练和测试多模态多智能体系统，以提升其在复杂协作任务中的表现。

背景与挑战

背景概述

在多模态代理领域，尽管基于大型基础模型的多模态代理取得了快速进展，但其潜在的语言通信能力在协作任务中的应用仍被忽视。这种忽视在实际部署中，特别是在与人类通信时，显得尤为关键。现有的代理基准未能充分解决代理间通信和协作的关键方面，特别是在代理拥有不平等信息访问权限且必须合作完成超出个体能力范围的任务时。为填补这一空白，我们引入了COMMA基准，旨在通过语言通信评估多模态多代理系统的协作性能。该基准包含多种场景，全面评估通信协作设置中的四类关键代理能力。通过测试代理间和代理与人类间的协作，我们发现即使是如GPT-4o这样的最先进模型，在代理间协作中也难以超越简单的随机代理基线，仅在有人类参与时才能超越基线。

当前挑战

COMMA数据集面临的挑战主要集中在解决多模态代理协作中的问题。首先，如何使不同代理在信息访问不平等的情况下，通过语言有效沟通多模态信息。其次，在代理拥有不同任务特定能力的情况下，如何协作完成超出单一代理能力范围的目标。构建过程中，数据集设计需确保代理能够处理不完整信息，特别是在处理敏感数据时。此外，现有基准如VisualWebArena和MMERealWorld未能充分评估代理间的协作性能，限制了我们对多代理系统的评估和改进能力。

常用场景

经典使用场景

COMMA数据集的经典使用场景在于评估多模态多智能体系统在协作任务中的语言通信能力。通过设计一系列复杂的谜题游戏，数据集模拟了智能体在不同信息访问权限下的协作情境。例如，在一个炸弹拆除游戏中，一个智能体拥有炸弹的详细信息，而另一个智能体则拥有拆除手册，两者必须通过有效的语言交流来共同解决问题。这种设置不仅测试了智能体的语言理解和生成能力，还评估了它们在多步骤推理和实时反应中的表现。

衍生相关工作

COMMA数据集的发布激发了大量相关研究工作，特别是在多智能体协作和多模态语言处理领域。例如，一些研究者利用COMMA数据集开发了新的多智能体协作算法，旨在提高智能体在复杂任务中的协作效率和准确性。另一些研究则专注于改进多模态语言模型的训练方法，以增强其在多智能体环境中的表现。此外，COMMA数据集还被用于评估和比较不同多模态智能体模型的性能，推动了这一领域的技术进步和标准化。

数据集最近研究