HIVE
收藏Harnessing Language for Coordination: A Framework and Benchmark for LLM-Driven Multi-Agent Control
作者
- Timothée Anne
- Noah Syrkis
- Meriem Elhosni
- Florian Turati
- Franck Legendre
- Alain Jaquier
- Sebastian Risi
摘要
大型语言模型(LLMs)在各种任务中展示了显著的性能。一个有前景但尚未充分探索的领域是它们在促进人类与多个代理协调方面的潜力。这种能力在灾难响应、城市规划和实时战略场景等领域非常有用。在这项工作中,我们介绍了(1)一个用于评估这些能力的实时战略游戏基准,以及(2)我们称之为HIVE的新框架。HIVE使单个人能够使用自然语言对话与LLM协调多达2000个代理。我们在多代理基准上展示了有希望的结果,我们的混合方法解决了诸如协调代理移动、利用单位弱点、利用人类注释以及理解地形和战略点等任务。然而,我们的研究也揭示了当前模型的关键局限性,包括处理空间视觉信息的困难和制定长期战略计划的挑战。这项工作揭示了LLMs在人类-群体协调中的潜力和局限性,为未来在这一领域的研究铺平了道路。
介绍
大型语言模型(LLMs)正在改变我们与人工智能的互动方式,一个令人兴奋的前沿是它们在复杂场景中协调多个代理的能力。HIVE(大规模参与的混合智能)是一个新框架,它在实时环境中连接人类战略和AI执行。HIVE通过将人类的自然语言指令转化为详细的运营计划,用于同时控制数千个代理。
HIVE: 混合智能的大规模参与
我们提出了HIVE,一个通过人机协作实现自然语言控制数千个单位的新框架。HIVE通过大型语言模型(LLMs)将高层次的人类命令转化为详细的运营计划。
概述
HIVE通过三个关键组件运行:
- 允许玩家给出命令和放置标记的自然语言界面
- 使用领域特定语言生成结构化计划的LLM
- 通过控制单个单位执行计划的行为树系统
游戏环境
游戏特点:
- 三种单位类型(长矛兵、弓箭手、骑兵)具有石头剪刀布的动态
- 四种地形类型影响移动和可见性
- 支持数千个单位,使用JAX进行并行处理
- 15米范围内的本地单位观察
- 连续移动和离散攻击动作
基准测试结果
我们评估了HIVE在五个核心能力上的表现:
- 协调(管理1000+单位)
- 利用弱点(利用单位类型优势)
- 跟随标记(精确位置)
- 利用地形(战略导航)
- 战略点(防御位置)
关键发现
- Claude-3 Sonnet在所有能力测试中表现最佳,解决了所有能力测试
- HIVE在人机协作下表现优于单独的AI
- 系统有效扩展到4000个单位
- LLMs在视觉地图解释方面仍面临挑战,相较于文本描述
结论
在这项工作中,我们为LLMs提出了一个新的挑战,即作为人类助手在战略游戏中控制多达两千个单位。我们提出了一个新的框架HIVE,允许玩家给出高层次的命令,LLM将其转化为长期计划,控制每个单位的行为。我们展示了通用LLMs如Claude Sonnet和GPT-4o可以处理此类任务,但仍对玩家提示的微小变化敏感。补充实验表明,HIVE需要人类帮助以获得最佳性能,并且通用LLMs在利用分布外地图进行地形和地标位置的视觉能力仍有待提高。这项工作为提高LLMs与人类协作的能力开辟了许多有趣的途径,例如提高其地图阅读能力,减少对提示的敏感性,并增加其长期规划能力。
BibTeX
bibtex @misc{anne2024harnessinglanguagecoordinationframework, title={Harnessing Language for Coordination: A Framework and Benchmark for LLM-Driven Multi-Agent Control}, author={Timothée Anne and Noah Syrkis and Meriem Elhosni and Florian Turati and Franck Legendre and Alain Jaquier and Sebastian Risi}, year={2024}, eprint={2412.11761}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2412.11761}, }

- 1Harnessing Language for Coordination: A Framework and Benchmark for LLM-Driven Multi-Agent Control哥本哈根大学, 瑞士国防科学与技术 · 2024年



