Decrypto Benchmark

Name: Decrypto Benchmark
Creator: FAIR at Meta, University of Oxford
Published: 2025-06-26 01:55:27
License: 暂无描述

arXiv2025-06-26 更新2025-06-28 收录

下载链接：

https://github.com/facebookresearch/decrypto/

下载链接

链接失效反馈

官方服务：

资源简介：

Decrypto是一个基于语言游戏的多人推理和心智理论（ToM）基准，由FAIR at Meta和牛津大学的研究人员开发。该数据集基于Scorpion Masqué公司发布的同名桌面游戏，旨在通过多人互动游戏来评估大型语言模型在推理和ToM方面的能力。数据集包含680个可能的关键词，超过8.8亿种可能的组合，以及无限数量的游戏可能性，因为提示的选择是开放式的，可以依赖于任何公开可用的信息。该数据集可用于评估LLM在竞争和合作场景下的推理能力，以及在进行战略决策前对他人可获得的信息进行推理的能力。

提供机构：

FAIR at Meta, University of Oxford

创建时间：

2025-06-26

搜集汇总

数据集介绍

构建方式

Decrypto Benchmark的构建基于多智能体推理和心理理论（ToM）的评估需求，通过设计一个基于语言游戏的交互式平台来实现。该平台受认知科学、计算语用学和多智能体强化学习的启发，旨在消除其他基准测试中常见的混杂因素。数据集的构建过程包括定义游戏规则、角色分配（编码器、解码器和拦截器）、关键词生成以及游戏回合的设计。游戏中的关键词从预定义的680个可能的关键词中随机选择，确保每次游戏的多样性和不可预测性。此外，数据集的构建还考虑了人类与AI的交互，通过收集人类玩家的游戏数据来验证和扩展基准的适用范围。

特点

Decrypto Benchmark的特点在于其专注于语言推理和心理理论能力的评估，同时避免了其他基准测试中常见的局限性，如数据泄露、饱和度和缺乏交互性。数据集通过简单的语言游戏形式，要求智能体在合作和竞争场景中进行推理，从而评估其ToM能力。游戏的设计使得智能体必须权衡提示的明确性和隐蔽性，以避免被拦截或误解。此外，数据集还支持人类与AI的交互研究，提供了丰富的实验平台，可用于设计新的ToM实验。数据集的关键词组合和提示选择具有高度的开放性和多样性，确保了基准的未来适用性和扩展性。

使用方法

Decrypto Benchmark的使用方法包括多智能体推理和心理理论的评估。研究人员可以通过该平台设计实验，评估智能体在合作和竞争场景中的表现。数据集支持两种代理类型：通用代理和专用代理。通用代理指未经额外微调或上下文学习的通用模型，而专用代理则针对任务进行了优化。评估时，研究人员需明确代理类型和实验设置，以确保结果的透明性和可比性。数据集还提供了丰富的指标，如误通信率、拦截率和游戏长度，用于量化智能体的表现。此外，研究人员可以利用该平台进行人类与AI的交互研究，通过命令行界面收集和分析人类玩家的数据。数据集的代码和工具支持快速实验设计和结果验证。

背景与挑战

背景概述

Decrypto Benchmark是由Meta FAIR与牛津大学的研究团队于2025年提出的创新性多智能体推理与心智理论评估基准。该数据集基于获奖桌游Decrypto设计，旨在解决当前大语言模型（LLMs）在复杂多智能体交互场景中核心能力评估的空白。研究团队通过融合认知科学、计算语用学和多智能体强化学习等跨学科视角，构建了首个支持交互式心智理论实验的研究平台。作为领域内首个将战略沟通任务与心智理论评估相结合的基准，Decrypto通过680个关键词组合和开放式提示设计，有效避免了数据泄露和评估饱和问题，为人工智能社会性行为研究提供了标准化测试环境。

当前挑战

Decrypto Benchmark面临三重核心挑战：在领域问题层面，需解决现有心智理论评估方法存在的交互性缺失和文本转换偏差问题，要求模型在部分可观测的随机环境中进行高阶信念推理；在构建过程中，需平衡游戏设计的简约性（消除符号推理等混淆因素）与评估维度的完备性（同时涵盖合作、竞争和心智理论能力）；在模型评估层面，需应对开放生成式提示带来的策略过拟合风险，以及跨智能体协作中因世界观差异导致的语义理解错位问题。此外，基准验证显示当前最先进语言模型的游戏表现甚至落后于简单词嵌入基线，暴露出智能体在战略沟通和二阶心智推理方面的显著缺陷。

常用场景

经典使用场景

Decrypto Benchmark 是一个专为评估多智能体推理和心理理论（ToM）能力而设计的交互式基准测试。该数据集通过一个基于语言游戏的平台，模拟了复杂的多智能体交互场景，包括合作与竞争环境。其经典使用场景包括评估大型语言模型（LLM）在多智能体环境中的协调、竞争以及心理理论能力。通过游戏化的设计，Decrypto Benchmark 提供了一个结构化的环境，用于研究智能体如何在信息不对称的情况下进行推理和决策。

衍生相关工作

Decrypto Benchmark 衍生了一系列相关研究工作，特别是在多智能体系统和心理理论领域。基于该数据集，研究人员开发了新的评估指标和方法，如使用Hessian矩阵行列式来衡量游戏结果对玩家或提示变化的敏感性。此外，该平台还被用于复现经典的认知心理学实验，如Smarties任务和Three Mountain问题，以评估LLM的心理理论能力。这些衍生工作不仅扩展了Decrypto Benchmark 的应用范围，还为理解智能体的社会认知机制提供了新的视角。

数据集最近研究