HIVE

Name: HIVE
Creator: 哥本哈根大学, 瑞士国防科学与技术
Published: 2024-12-16 21:25:42
License: 暂无描述

arXiv2024-12-16 更新2024-12-24 收录

下载链接：

https://hive.syrkis.com/

下载链接

链接失效反馈

官方服务：

资源简介：

HIVE是一个用于多智能体控制的框架，旨在通过自然语言与大型语言模型（LLM）进行交互，协调多达2000个智能体。该数据集通过实时战略游戏基准进行评估，测试了多智能体系统的五项核心能力。数据集的创建过程结合了人类的高级战略输入和LLM驱动的操作计划，生成了详细的智能体行为树。HIVE的应用领域包括灾难响应、城市规划和实时战略场景，旨在解决复杂环境中的多智能体协调问题。

HIVE is a multi-agent control framework designed to interact with Large Language Models (LLMs) via natural language and coordinate up to 2000 agents. This dataset is evaluated using real-time strategy game benchmarks and tests five core capabilities of multi-agent systems. The dataset's creation process combines human-provided high-level strategic inputs and LLM-driven operational plans, generating detailed agent behavior trees. The application areas of HIVE include disaster response, urban planning and real-time strategy scenarios, aiming to solve multi-agent coordination problems in complex environments.

提供机构：

哥本哈根大学, 瑞士国防科学与技术

创建时间：

2024-12-16

原始信息汇总

Harnessing Language for Coordination: A Framework and Benchmark for LLM-Driven Multi-Agent Control

作者

Timothée Anne
Noah Syrkis
Meriem Elhosni
Florian Turati
Franck Legendre
Alain Jaquier
Sebastian Risi

摘要

大型语言模型（LLMs）在各种任务中展示了显著的性能。一个有前景但尚未充分探索的领域是它们在促进人类与多个代理协调方面的潜力。这种能力在灾难响应、城市规划和实时战略场景等领域非常有用。在这项工作中，我们介绍了（1）一个用于评估这些能力的实时战略游戏基准，以及（2）我们称之为HIVE的新框架。HIVE使单个人能够使用自然语言对话与LLM协调多达2000个代理。我们在多代理基准上展示了有希望的结果，我们的混合方法解决了诸如协调代理移动、利用单位弱点、利用人类注释以及理解地形和战略点等任务。然而，我们的研究也揭示了当前模型的关键局限性，包括处理空间视觉信息的困难和制定长期战略计划的挑战。这项工作揭示了LLMs在人类-群体协调中的潜力和局限性，为未来在这一领域的研究铺平了道路。

介绍

大型语言模型（LLMs）正在改变我们与人工智能的互动方式，一个令人兴奋的前沿是它们在复杂场景中协调多个代理的能力。HIVE（大规模参与的混合智能）是一个新框架，它在实时环境中连接人类战略和AI执行。HIVE通过将人类的自然语言指令转化为详细的运营计划，用于同时控制数千个代理。

HIVE: 混合智能的大规模参与

我们提出了HIVE，一个通过人机协作实现自然语言控制数千个单位的新框架。HIVE通过大型语言模型（LLMs）将高层次的人类命令转化为详细的运营计划。

概述

HIVE通过三个关键组件运行：

允许玩家给出命令和放置标记的自然语言界面
使用领域特定语言生成结构化计划的LLM
通过控制单个单位执行计划的行为树系统

游戏环境

游戏特点：

三种单位类型（长矛兵、弓箭手、骑兵）具有石头剪刀布的动态
四种地形类型影响移动和可见性
支持数千个单位，使用JAX进行并行处理
15米范围内的本地单位观察
连续移动和离散攻击动作

基准测试结果

我们评估了HIVE在五个核心能力上的表现：

协调（管理1000+单位）
利用弱点（利用单位类型优势）
跟随标记（精确位置）
利用地形（战略导航）
战略点（防御位置）

关键发现

Claude-3 Sonnet在所有能力测试中表现最佳，解决了所有能力测试
HIVE在人机协作下表现优于单独的AI
系统有效扩展到4000个单位
LLMs在视觉地图解释方面仍面临挑战，相较于文本描述

结论

在这项工作中，我们为LLMs提出了一个新的挑战，即作为人类助手在战略游戏中控制多达两千个单位。我们提出了一个新的框架HIVE，允许玩家给出高层次的命令，LLM将其转化为长期计划，控制每个单位的行为。我们展示了通用LLMs如Claude Sonnet和GPT-4o可以处理此类任务，但仍对玩家提示的微小变化敏感。补充实验表明，HIVE需要人类帮助以获得最佳性能，并且通用LLMs在利用分布外地图进行地形和地标位置的视觉能力仍有待提高。这项工作为提高LLMs与人类协作的能力开辟了许多有趣的途径，例如提高其地图阅读能力，减少对提示的敏感性，并增加其长期规划能力。

BibTeX

bibtex @misc{anne2024harnessinglanguagecoordinationframework, title={Harnessing Language for Coordination: A Framework and Benchmark for LLM-Driven Multi-Agent Control}, author={Timothée Anne and Noah Syrkis and Meriem Elhosni and Florian Turati and Franck Legendre and Alain Jaquier and Sebastian Risi}, year={2024}, eprint={2412.11761}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2412.11761}, }

搜集汇总

数据集介绍

构建方式

HIVE数据集通过构建一个实时策略游戏基准来评估大型语言模型（LLMs）在多智能体控制中的能力。该数据集的核心框架HIVE允许单个玩家通过自然语言对话与LLM进行交互，从而协调多达2000个智能体的行动。HIVE通过将玩家的高层策略指令转化为详细的行动计划，并使用领域特定语言（DSL）为每个智能体分配目标位置和行为树，从而实现智能体的协调与控制。

特点

HIVE数据集的主要特点在于其混合智能体控制框架，结合了人类的高层策略输入与LLM的详细操作规划。该数据集支持多种智能体类型，包括近战、远程和快速移动单位，并通过行为树实现智能体的低层行为控制。此外，HIVE还提供了多种地形和战略点，增强了游戏的复杂性和挑战性。

使用方法

HIVE数据集可用于评估和优化LLMs在多智能体控制任务中的表现。用户可以通过自然语言指令与HIVE系统进行交互，系统将根据指令生成详细的行动计划。研究者可以利用该数据集测试不同LLMs在协调、弱点利用、地形利用和战略规划等方面的能力，并通过实验结果分析模型的优缺点，为进一步的研究和改进提供依据。

背景与挑战

背景概述

HIVE数据集由丹麦哥本哈根IT大学和瑞士armasuisse科技公司的研究人员共同开发，旨在探索大型语言模型（LLMs）在多智能体控制中的应用。该数据集的核心研究问题是如何通过自然语言对话，使单个人类用户能够协调多达2000个智能体的行动，特别是在实时战略游戏等复杂场景中。HIVE框架通过将人类的高层指令转化为详细的行动计划，展示了LLMs在灾难响应、城市规划和战略游戏等领域的潜力。该数据集的创建时间为2024年，其研究成果为未来在多智能体协调任务中的人机协作提供了新的研究方向。

当前挑战

HIVE数据集面临的主要挑战包括：1）如何有效处理大规模智能体的协调任务，特别是在实时战略游戏中，确保智能体能够高效执行复杂的战术和战略计划；2）LLMs在处理空间视觉信息和长期战略规划方面的局限性，这导致模型在复杂环境中的表现不佳；3）构建过程中，LLMs对输入变化的敏感性，轻微的指令变化可能导致计划执行的显著差异；4）LLMs在视觉-空间推理和地理空间推理方面的不足，限制了其在涉及地形和地标的任务中的表现。这些挑战揭示了LLMs在多智能体协调任务中的潜力与局限性，为未来的研究提供了改进方向。

常用场景

经典使用场景

HIVE数据集的经典使用场景在于评估和优化大型语言模型（LLM）在多智能体控制任务中的表现。通过设计一个实时策略游戏基准，HIVE允许单个玩家通过自然语言对话与LLM进行交互，指挥多达2000个智能体的行动。这种场景特别适用于灾难响应、城市规划和实时战略游戏等领域，其中高效的智能体协调至关重要。

衍生相关工作

HIVE数据集的提出催生了一系列相关研究工作。首先，许多研究开始探索如何通过微调LLM来提升其在多智能体控制任务中的表现，特别是在处理空间推理和长期规划方面。其次，HIVE的框架启发了其他研究者开发类似的混合智能系统，结合LLM的高级规划能力和传统算法的低级执行能力。此外，HIVE还推动了对LLM在复杂环境中的视觉感知能力的研究，特别是在地图理解和空间推理方面。

数据集最近研究