Ad-Hoc Human-AI Coordination Challenge (AH2AC2)

Name: Ad-Hoc Human-AI Coordination Challenge (AH2AC2)
Creator: 1FLAIR, University of Oxford, Oxford, UK; 2Department of Computer Science, University of Oxford, UK; 3Universitat Politècnica de Catalunya, Barcelona, Spain
Published: 2025-06-27 01:19:52
License: 暂无描述

arXiv2025-06-27 更新2025-06-28 收录

下载链接：

https://github.com/FLAIROx/ah2ac2

下载链接

链接失效反馈

官方服务：

资源简介：

AH2AC2数据集是一个开源的Hanabi人类游戏数据集，包含1,858场两人游戏和1,221场三人游戏。该数据集旨在为研究人类与AI协调提供基准，并通过行为克隆和正则化强化学习开发了高表现的人类代理。这些代理作为评估人类与AI协调能力的标准测试伙伴。数据集还包含一个公开排行榜，用于跟踪研究进展。

The AH2AC2 dataset is an open-source human gameplay dataset for the card game Hanabi, consisting of 1,858 two-player games and 1,221 three-player games. This dataset is designed to serve as a benchmark for research on human-AI coordination. High-performing human-like agents were developed via behavioral cloning and regularized reinforcement learning, which act as standard test partners for evaluating human-AI coordination abilities. Additionally, the dataset includes a public leaderboard for tracking research progress.

提供机构：

1FLAIR, University of Oxford, Oxford, UK; 2Department of Computer Science, University of Oxford, UK; 3Universitat Politècnica de Catalunya, Barcelona, Spain

创建时间：

2025-06-27

搜集汇总

数据集介绍

构建方式

Ad-Hoc Human-AI Coordination Challenge (AH2AC2) 数据集构建于大规模人类游戏数据之上，通过行为克隆（BC）和正则化强化学习（RL）相结合的方法开发人类代理模型。具体而言，研究团队首先在101,096场双人游戏和46,525场三人游戏数据上训练BC策略，随后采用独立近端策略优化（IPPO）进行策略精炼，并通过KL正则化项确保代理行为贴近人类风格。为促进数据高效方法的研究，团队开源了3,079场游戏数据（1,858场双人游戏和1,221场三人游戏），同时保留大规模训练数据集以维护评估完整性。

特点

AH2AC2数据集的核心特点在于其专注于不完全信息、受限通信和心智理论要求的协同决策场景，通过Hanabi游戏这一理想测试平台实现。数据集包含多样化的游戏策略和风格，反映了真实人类玩家的行为模式。人类代理模型在自我对弈中平均得分达22.55至22.97（双人）和20.88至21.21（三人），完美游戏比例最高达29.66%，且通过行为指标分析（如信息每玩牌指数IPP=0.43-0.44，沟通性=0.45-0.48）验证了其人类相似性。数据集特别强调小样本适应性，为开发数据高效算法提供了独特挑战。

使用方法

使用AH2AC2数据集需通过专用评估API接入人类代理模型，参与者需预注册实验以获得1,000场评估游戏的访问权限。评估分为两个部分：主要挑战测试AI代理与人类代理的协调能力，通过平均/中位数得分衡量；可选行动预测挑战则通过教师强制交叉熵损失评估人类行为预测能力。基线方法包含零样本协调（如OBL）、数据依赖方法（如BR-BC）和基于种群的方法（如FCP），同时提供DeepSeek-R1语言模型代理作为LLM能力基准。所有评估通过受控API进行，确保结果可复现性和公平性。

背景与挑战

背景概述

Ad-Hoc Human-AI Coordination Challenge (AH2AC2) 是由牛津大学FLAIR团队于2025年提出的新型基准测试，旨在解决人机协作中的核心挑战。该数据集以Hanabi合作卡牌游戏为载体，通过构建大规模人类游戏数据集（包含147,621场对局）和人类代理模型，为评估AI系统与人类协同能力提供了标准化测试平台。数据集创新性地结合了行为克隆与正则化强化学习，开发出既保持人类游戏风格又具备鲁棒性的代理模型。作为首个开源的Hanabi人类游戏数据集，AH2AC2填补了人机协调领域缺乏可重复基准的空白，对推动协作型AI发展具有重要意义。

当前挑战

AH2AC2面临双重挑战：在领域层面，需解决非完全信息环境下人机即时协作的难题，包括理论思维建模、受限通信条件下的策略协调等核心问题；在构建层面，存在人类评估成本高、数据稀缺性（仅开源3,079场对局）带来的算法开发限制。具体表现为：1）人类代理需平衡模仿精度与策略泛化能力，避免过拟合特定游戏惯例；2）评估系统需防止参赛者对代理模型的反向工程，通过API托管实现可控评估；3）在有限人类数据条件下开发数据高效算法，要求模型具备从少量样本中提取协作模式的能力。

常用场景

经典使用场景

Ad-Hoc Human-AI Coordination Challenge (AH2AC2) 数据集以 Hanabi 游戏为实验平台，为研究人机协作提供了标准化的评估框架。Hanabi 游戏具有不完全信息、受限通信和心智理论需求等特点，使其成为评估 AI 代理与人类协作能力的理想测试环境。该数据集通过大规模人类游戏数据训练人类代理模型，为研究者提供了可重复、低成本且高效的评估伙伴，从而克服了传统人类评估成本高且难以复现的局限性。

衍生相关工作

该数据集已衍生出多个经典研究方向：基于行为克隆与正则化强化学习融合的人类代理训练方法（HDR-IPPO）、零样本协调算法（如 OBL）的效能验证，以及大语言模型在人机协作中的适应性研究。相关工作发表在 NeurIPS、ICML 等顶级会议，推动了 Population-Based Training 等方法在部分可观察环境下的创新应用，并为理论心智研究提供了新的评估维度。

数据集最近研究