MangoBench
收藏github2026-03-16 更新2026-03-17 收录
下载链接:
https://github.com/SYSU-SAIL/mangobench-locomotion
下载链接
链接失效反馈官方服务:
资源简介:
MangoBench是首个完全合作的多目标离线多智能体强化学习基准测试,涵盖47个任务,覆盖运动学和双手操作领域。
MangoBench is the first fully cooperative multi-objective offline multi-agent reinforcement learning benchmark, which encompasses 47 tasks spanning the domains of kinematics and bimanual manipulation.
创建时间:
2026-03-06
原始信息汇总
MangoBench 数据集概述
数据集基本信息
- 数据集名称:MangoBench
- 官方描述:首个面向离线多智能体强化学习的完全合作式多目标基准。
- 收录会议:IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026
核心内容与范围
- 任务领域:涵盖运动控制与双手操作两个领域。
- 任务数量:共包含47个任务。
- 任务类型:完全合作的多智能体、多目标、离线强化学习任务。
相关资源
- 项目主页:https://wendyeewang.github.io/MangoBench/(包含环境、任务和基线算法的视频与详细信息)
- 操作环境代码仓库:https://github.com/WendyeeWang/mangobench-manipulation
引用信息
若使用本数据集,请引用: bibtex @inproceedings{Wang2026MangoBench, title={MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning}, author={Wang, Yi and Zhong, Ningze and Fu, Zhiheng and Wang, Longguang and Zhang, Ye and Guo, Yulan}, booktitle={IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2026} }
许可证
- 许可证类型:MIT License
- 许可证文件地址:https://github.com/SYSU-SAIL/mangobench-locomotion/blob/main/LICENSE
搜集汇总
数据集介绍

构建方式
在离线多智能体强化学习领域,MangoBench的构建过程体现了严谨的基准设计理念。该数据集通过整合47个涵盖运动控制与双手操作的任务,构建了一个完全合作式的多目标环境。其底层环境代码基于现有框架进行扩展,并遵循标准化的数据采集流程,确保了离线轨迹数据的多样性与真实性。每个任务场景均经过精心设计,以支持对多智能体在给定目标条件下的策略学习能力进行系统性评估。
特点
MangoBench的核心特点在于其开创性地将多智能体、多目标条件与离线学习范式相结合。数据集囊括了从连续运动到精细操作等多种任务类型,为算法提供了丰富的测试场景。其完全合作的性质要求智能体之间必须协调行动以达成共同目标,这增加了学习的复杂性。此外,作为首个专注于该方向的基准,MangoBench为社区提供了一个标准化的评估平台,有助于推动相关算法的可比性与进步。
使用方法
研究人员可通过官方提供的代码仓库快速部署MangoBench评估环境。使用前需按照指南配置Python基础环境并安装必要的依赖库。运行过程通常涉及执行预设的脚本以启动基准测试,从而在不同的多智能体多目标任务上评估离线强化学习算法的性能。数据集的设计便于用户集成新的算法进行对比实验,并通过统一的指标来衡量其在合作任务中的目标达成效率与策略稳定性。
背景与挑战
背景概述
多智能体强化学习作为人工智能领域的前沿方向,致力于解决多个自主智能体在复杂环境中协同决策的问题。MangoBench由Yi Wang等研究人员于2026年提出,作为首个面向离线多智能体目标条件强化学习的基准测试集,其核心研究问题聚焦于如何在无需在线交互的条件下,实现多智能体系统在多样化目标导向任务中的高效学习与泛化。该数据集涵盖47项任务,涉及运动控制与双手操作两大场景,为评估多智能体离线强化学习算法的性能提供了标准化平台,对推动协作智能体的实际应用具有重要影响力。
当前挑战
在领域问题层面,多智能体目标条件离线强化学习面临环境动态复杂、智能体间协调依赖性强以及目标泛化要求高等挑战,传统方法难以在离线数据中有效捕捉多智能体协作模式与目标导向行为的关联。构建过程中,数据收集需平衡任务多样性与现实可行性,涉及高维状态空间下的精确动作标注、多模态目标表示的统一建模,以及跨任务数据分布的偏差控制,这些因素共同增加了数据集构建的复杂度与可靠性保障难度。
常用场景
经典使用场景
在多智能体强化学习领域,MangoBench作为首个完全合作的多目标离线基准测试平台,其经典应用场景聚焦于评估智能体在无交互环境下的协同决策能力。该数据集涵盖了47项任务,涉及运动控制与双手操作两大范畴,为研究者提供了一个标准化的实验框架,用以系统检验算法在复杂多目标设定中的泛化性能与稳定性。通过模拟现实世界中的协作需求,如机器人协同搬运或群体导航,MangoBench推动了离线多智能体学习从理论探索向实际验证的过渡。
实际应用
在实际应用层面,MangoBench的双手操作与运动控制任务直接映射到工业自动化与服务机器人场景。例如,在智能制造中,多机器人系统需协同完成精密装配或物料处理,而该数据集提供的离线学习基准可帮助优化协作策略,降低对实时交互的依赖,提升系统的鲁棒性与适应性。此外,在医疗康复或家庭辅助领域,基于MangoBench训练的模型能够支持多设备协同执行复杂任务,如协助患者移动或家居整理,从而推动智能协作系统向安全、高效的方向发展。
衍生相关工作
围绕MangoBench衍生的经典工作主要集中在多智能体离线算法创新与基准扩展方面。研究者基于该数据集开发了多种目标条件策略优化方法,如结合变分推断的协作表示学习框架,以提升在稀疏奖励下的探索效率。同时,部分工作将MangoBench的任务结构迁移至更广泛的领域,例如扩展至动态环境中的多目标导航或跨模态协作任务,进一步丰富了多智能体离线学习的理论体系与应用边界。这些进展共同强化了该基准在推动协作智能研究中的核心地位。
以上内容由遇见数据集搜集并总结生成



