SPIN-Bench
收藏arXiv2025-09-30 收录
下载链接:
https://spinbench.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为SPIN-Bench,是一个多领域评估框架,旨在衡量人工智能代理在战略规划和社交推理方面的智能水平。它融合了经典的PDDL任务、竞技棋盘游戏、合作卡牌游戏以及多代理谈判场景。SPIN-Bench系统地调整了动作空间、状态复杂度以及交互代理的数量,以模拟各种社交环境。该框架包含了多个具有不同复杂性和代理互动的场景,其任务旨在评估战略规划和社交推理能力。



