CK-Arena

Name: CK-Arena
Creator: 北京师范大学, 澳大利亚国立大学, 北京101教育集团
Published: 2025-05-23 14:06:28
License: 暂无描述

arXiv2025-05-23 更新2025-05-27 收录

下载链接：

https://ck-arena.site

下载链接

链接失效反馈

官方服务：

资源简介：

CK-Arena 是一个基于多人交互游戏的评估基准，旨在评估大型语言模型 (LLMs) 在动态环境中理解概念知识的推理能力。该数据集包含 529 个英文概念对，涵盖了广泛的类别，并具有足够的语义接近度和描述清晰度，使得游戏既具有挑战性又能够进行有意义的区分。CK-Arena 的创建过程包括对概念对的筛选和提示设计，以确保有效的沟通和角色特定的行为。该数据集旨在解决传统评估基准在评估概念理解方面的局限性，为评估 LLMs 在概念推理任务中的能力提供了一个标准化的方法。

CK-Arena is an evaluation benchmark based on multiplayer interactive games, designed to assess the reasoning capabilities of large language models (LLMs) in understanding conceptual knowledge within dynamic environments. This dataset comprises 529 English concept pairs covering a wide range of categories, with sufficient semantic proximity and descriptive clarity to make the games both challenging and capable of enabling meaningful differentiation. The development process of CK-Arena includes screening of concept pairs and prompt design, to ensure effective communication and role-specific behaviors. This benchmark aims to address the limitations of traditional evaluation benchmarks in assessing conceptual understanding, providing a standardized approach for evaluating LLMs' capabilities in conceptual reasoning tasks.

提供机构：

北京师范大学, 澳大利亚国立大学, 北京101教育集团

创建时间：

2025-05-23

原始信息汇总

数据集概述：CK-Arena

基本信息

数据集名称: Probe by Gaming: A Game-based Benchmark for Assessing Conceptual Knowledge in LLMs
作者:
- Shuhang Xu (北京师范大学)
- Weijian Deng (澳大利亚国立大学)
- Yixuan Zhou (北京101中学教育集团)
- Fangwei Zhong (通讯作者，北京师范大学)
联系方式: fangweizhong@bnu.edu.cn
相关资源:
- 论文
- 代码
- 数据

研究背景与目标

研究背景: 现有基准测试主要关注事实回忆和孤立任务，未能评估大语言模型(LLMs)理解概念边界的能力。
研究目标: 通过多智能体交互游戏评估LLMs在交互环境中进行概念推理的能力。

数据集特点

基准名称: CK-Arena
游戏类型: 基于Undercover游戏的多智能体交互游戏
评估维度:
- 概念描述能力
- 概念区分能力
- 基于部分信息推断概念边界的能力
核心机制: 通过模拟现实世界交互，鼓励模型探索相关概念之间的共性和区别

实验发现

LLMs对概念知识的理解在不同类别间存在显著差异
理解能力与参数规模或通用模型能力并非严格对应

游戏演示信息

游戏名称: Undercover Game
主题类别: Animals
平民概念: bee
卧底概念: butterfly
游戏目标:
- 平民: 通过投票识别并淘汰卧底
- 卧底: 融入群体不被发现

引用信息

bibtex @article{xu2025probe, author = {Xu, Shuhang and Deng, Weijian and Zhou, Yixuan and Zhong, Fangwei}, title = {Probe by Gaming: A Game-based Benchmark for Assessing Conceptual Knowledge in LLMs}, year = {2025}, }

许可信息

许可证类型: Creative Commons Attribution-ShareAlike 4.0 International License

搜集汇总

数据集介绍

构建方式

CK-Arena数据集基于多智能体交互游戏Undercover构建，旨在评估大型语言模型（LLMs）在动态环境中对概念知识的理解和推理能力。数据集的构建过程包括手动筛选529对语义相关的概念，涵盖具体名词、抽象名词、副词和动词等多个类别，确保概念对在语义上既相似又有区分度。通过模拟真实世界的交互场景，CK-Arena要求模型在部分信息下进行概念描述、区分和推理，从而探索概念之间的共性和差异。数据集的初始化阶段随机分配角色和概念，游戏过程中通过多轮对话和自动化评分机制记录模型表现。

特点

CK-Arena数据集的核心特点在于其交互性和动态评估能力。数据集通过多智能体游戏机制，模拟真实场景中概念的灵活应用，突破了传统静态评估的局限性。其概念对设计覆盖广泛领域，包括食物、地形、动物、工具等11个类别，确保了评估的全面性。此外，数据集引入了结构化评估指标，如新颖性、相关性和合理性，以及玩家级指标如胜率和生存率，为模型性能提供了多维度量化分析。数据集的扩展性设计允许轻松引入新概念，适应不断发展的评估需求。

使用方法

使用CK-Arena数据集时，研究者需配置多智能体交互环境，包括玩家模型和裁判模型。玩家模型被随机分配为平民或卧底角色，接收相应概念后参与多轮描述和投票。裁判模型基于预设指标（新颖性、相关性、合理性）自动评估玩家表现。数据集支持两种游戏模式：标准模式评估综合推理能力，而Undercover-Audience模式简化认知要求，专注概念边界理解。实验过程中，系统记录完整的交互历史、评分结果和游戏元数据，研究者可通过分析胜率、生存率和陈述质量等指标，评估模型在不同概念类别上的表现差异。数据集的代码和概念对资源已在项目主页开源。

背景与挑战

背景概述

CK-Arena是由北京师范大学、澳大利亚国立大学等机构的研究团队于2025年提出的创新型评估基准，旨在通过多智能体交互游戏范式评估大语言模型（LLMs）的概念知识理解能力。该数据集基于经典游戏'Undercover'构建，聚焦概念边界推理这一核心研究问题，突破了传统静态评估方法在动态语义理解方面的局限。其创新性体现为：首次将概念对关系评估融入交互式游戏框架，通过519组跨领域概念对（涵盖具体名词、抽象名词等11个类别）构建了可扩展的评估体系，为衡量LLMs的结构化知识表征能力提供了新范式。

当前挑战

领域挑战方面，CK-Arena需解决概念边界模糊性（如'足球-篮球'的共享特征与差异特征识别）、动态语境下的语义推理（智能体需根据局部信息调整描述策略）以及跨领域概念迁移（模型在工具类与社交类概念的表现差异）三大核心问题。构建挑战包括：1）概念对筛选需平衡语义邻近性与区分度（如'灵长类动物'下不同物种的共性描述）；2）自动化评估系统需处理LLM作为裁判时的幻觉问题（通过多模型投票和人工校验机制）；3）游戏交互设计需兼容不同规模模型的推理能力（如针对小模型的Undercover-Audience变体）。

常用场景

经典使用场景

CK-Arena数据集通过多智能体交互游戏的形式，为评估大语言模型（LLMs）在动态环境中理解和推理概念知识的能力提供了一个创新的基准。该数据集基于Undercover游戏设计，要求模型在部分信息条件下描述、区分和推断概念的边界，从而探索相关概念之间的共性和差异。这种交互式评估方法不仅模拟了真实世界中的认知过程，还通过多轮对话和策略性决策，全面考察模型的概念理解能力。

解决学术问题

CK-Arena解决了传统基准测试在评估LLMs概念理解能力时的局限性。传统方法通常关注孤立的事实回忆和静态任务，无法有效评估模型对概念边界和语义关系的掌握。CK-Arena通过多智能体交互和结构化评估机制，填补了这一空白，为研究LLMs的概念推理能力提供了标准化工具。其实验结果表明，LLMs在不同概念类别上的理解能力存在显著差异，且与模型参数规模或通用能力并非严格相关，为模型优化和评估提供了新的研究方向。

衍生相关工作

CK-Arena的推出催生了一系列相关研究，特别是在概念知识评估和游戏化基准测试领域。基于其框架，研究者开发了针对特定领域（如医学、法律）的概念评估工具；其多智能体交互模式启发了新型协作型AI评估方法；数据集中的概念对和描述语句被用于训练概念感知模型（LCMs）。此外，CK-Arena的自动评估机制为后续研究提供了可借鉴的技术方案，推动了交互式评估范式的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集