five

trajectory datasets with per-agent reward information

收藏
arXiv2025-02-24 更新2025-02-26 收录
下载链接:
http://iconlab.negarmehr.com/LLM-MCA/
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是本文研究的副产品,包含了每个时间步长的轨迹,并且标注了每个代理的奖励信息。这些数据来自于 centralized LLM reward-critic 的反馈,旨在为未来的离线学习工作提供可以帮助训练一组协作、去中心化政策的资源。

This dataset is a byproduct of the research presented in this paper. It includes trajectories at each time step, with reward annotations for each agent. The data are sourced from the feedback of centralized LLM reward-critic systems, and is intended to provide resources that assist in training a set of collaborative, decentralized policies for future offline learning work.
提供机构:
加州大学伯克利分校
创建时间:
2025-02-24
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式是通过一种名为LLM-MCA(Large Language Model Multi-agent Credit Assignment)的方法实现的。该方法利用大型语言模型(LLM)作为中心化评价者,对每个代理在场景中的贡献进行数值分解,并据此更新代理的策略网络。此外,还提出了LLMTACA方法,其中LLM评价者通过直接将中间目标传递给场景中的每个代理策略,执行显式任务分配。
特点
该数据集的特点在于每个时间步长都标注了每个代理的奖励信息,这些信息是从LLM评价者中采样得到的。这使得数据集可以用于训练一组协作、去中心化的策略,从而为未来的研究提供了便利。
使用方法
使用该数据集时,首先需要了解数据集中的每个时间步长的标注信息,这些信息反映了每个代理在场景中的贡献。然后,可以将这些信息用于训练代理的策略网络,从而提高代理的协作能力。此外,还可以使用LLMTACA方法,将中间目标直接传递给每个代理策略,以实现显式任务分配。
背景与挑战
背景概述
在多智能体强化学习(MARL)领域中,智能体之间协作以实现共同目标的能力至关重要。为了学习这种协作行为,研究人员通常采用集中式训练分散式执行(CTDE)范式。然而,这种方法也带来了一个新的挑战:如何评估每个智能体对团队整体成功或失败的贡献。这个问题被称为“信用分配”问题,在MARL文献中已被广泛研究。本文介绍的数据集是由加州大学伯克利分校的研究团队创建的,旨在通过大型语言模型(LLMs)解决信用分配问题。该数据集包含每个时间步长的智能体轨迹和奖励信息,为未来的MARL研究提供了宝贵资源。
当前挑战
数据集相关的挑战包括:1) 信用分配问题,即在多智能体协作中,如何准确评估每个智能体的贡献;2) 构建过程中遇到的挑战,如如何设计有效的LLM-critic架构,以及如何处理大规模的联合状态-动作空间。
常用场景
经典使用场景
在多智能体强化学习(MARL)中,轨迹数据集与每智能体奖励信息被广泛用于评估和训练智能体在复杂协作场景下的表现。该数据集的核心用途在于解决多智能体系统中的“信用分配”问题,即如何准确评估每个智能体的行为对团队整体成功或失败的贡献。通过利用大型语言模型(LLM)的强大模式识别能力,该数据集能够为每个智能体在每个时间步提供个性化的奖励信息,从而帮助智能体学习更有效的协作策略。
衍生相关工作
该数据集的发布促进了大量相关经典工作的衍生。例如,研究人员可以利用该数据集来开发新的信用分配算法,以提高多智能体系统的性能和效率。此外,该数据集还可以用于研究LLM在其他MARL问题中的应用,如任务分配、策略学习等。这些衍生工作将进一步推动MARL领域的发展,并为实际应用提供更多的可能性。
数据集最近研究
最新研究方向
本研究利用大型语言模型(LLM)在多智能体强化学习(MARL)中解决信用分配问题,通过将信用分配任务重新定义为模式识别问题,即序列改进和归因问题。该方法利用集中式LLM奖励评估器,根据每个智能体在场景中的个体贡献,将环境奖励进行数值分解。然后,根据此反馈更新智能体的策略网络。此外,还提出了LLMTACA方法,LLM评估器在执行信用分配的同时,通过将中介目标直接传递给场景中的每个智能体策略,执行显式任务分配。这些方法在各种基准测试中均表现出色,包括基于级别的觅食、机器人仓库以及新的“太空世界”基准,该基准包括与碰撞相关的安全约束。通过生成每个时间步都带有每个智能体奖励信息的轨迹数据集,本研究旨在为未来的研究提供支持,这些研究可以直接离线训练一组协作的、去中心化的策略。
相关研究论文
  • 1
    Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment加州大学伯克利分校 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作