GameTheory-Bench
收藏Hugging Face2026-02-25 更新2026-02-26 收录
下载链接:
https://huggingface.co/datasets/2reb/GameTheory-Bench
下载链接
链接失效反馈官方服务:
资源简介:
GameTheory-Bench 是一个包含 2,913 个经过计算验证的游戏理论问题的数据集,涵盖 10 个主要类别和 35 多个子类别。每个问题包括自然语言描述、详细的分步解决方案、简洁的答案以及机器可验证的验证对象。数据集适用于 RLVR/GRPO 训练、监督微调(SFT)和大型语言模型(LLM)评估。问题类别包括标准形式游戏、零和游戏、序贯游戏、拍卖理论、贝叶斯游戏、合作游戏和机制设计等。每个解决方案都通过 `nashpy`、分析公式和算法检查进行了验证。数据集还提供了难度分布(简单、中等、困难)和详细的类别统计信息。
GameTheory-Bench is a dataset containing 2,913 computationally verified game theory problems, covering 10 major categories and more than 35 subcategories. Each problem includes a natural language description, detailed step-by-step solutions, a concise answer, and a machine-verifiable validation object. The dataset is applicable to RLVR/GRPO training, supervised fine-tuning (SFT), and large language model (LLM) evaluation. The problem categories cover normal-form games, zero-sum games, sequential games, auction theory, Bayesian games, cooperative games, mechanism design, and more. Each solution has been validated via `nashpy`, analytical formulas, and algorithmic checks. Additionally, the dataset provides a difficulty distribution (easy, medium, hard) and detailed category statistics.
创建时间:
2026-02-25
搜集汇总
数据集介绍
构建方式
在博弈论这一融合数学、经济学与计算机科学的交叉领域,缺乏高质量、可验证的基准数据集长期制约着相关研究。GameTheory-Bench的构建旨在填补这一空白,其核心在于系统性地生成并计算验证。数据集涵盖十个主要类别与三十余个子类,总计2913个问题。每个条目均包含自然语言描述的问题陈述、逐步推理的详细解答、简洁的最终答案,以及一个机器可解析的验证对象。构建过程严格依赖于计算验证,例如使用nashpy库求解纳什均衡,或通过解析公式与算法检查确保答案的数学正确性,从而为强化学习与可验证奖励信号提供了坚实的数据基础。
特点
该数据集以其全面性与可验证性为显著特征。其内容广度覆盖了从经典的正规形式博弈、零和博弈到复杂的序贯博弈、拍卖理论、贝叶斯博弈、合作博弈与机制设计等核心领域,并依据难度分为简单、中等与困难三个层级。每一问题的答案均附有机器可检查的验证信息,这使其成为首个专为基于可验证奖励的强化学习范式设计的博弈论数据集。此外,数据集结构清晰,包含类别、子类、难度、玩家数量、信息结构等多维度元数据,支持灵活的筛选与针对性研究。
使用方法
该数据集为大型语言模型在博弈论领域的训练与评估提供了多模态应用路径。首要用途在于支持基于可验证奖励的强化学习训练,模型生成的答案可与数据集中预计算的验证对象进行比对,以生成精确的奖励信号。其次,其问题与详细解答的配对天然适用于监督式微调,可用于提升模型的指令遵循与分步推理能力。作为评估基准,研究者可按难度或类别筛选子集,系统性地衡量模型在不同复杂度博弈问题上的表现。数据集亦支持课程学习,允许模型从易到难渐进掌握博弈论概念。
背景与挑战
背景概述
博弈论作为研究策略性互动决策的数学理论,在经济学、计算机科学及人工智能领域具有深远影响。随着大型语言模型在复杂推理任务上的应用拓展,亟需高质量、可验证的领域专业数据集以评估和提升其战略推理能力。GameTheory-Bench数据集于2025年由研究者2reb创建并发布,旨在填补博弈论领域缺乏大规模、可计算验证数据资源的空白。该数据集系统性地涵盖了从完全信息静态博弈到不完全信息动态博弈等十大核心类别,共计2913个经过计算验证的问题,为核心研究问题——即如何使语言模型掌握严谨的博弈论形式化推理与均衡求解——提供了坚实的基准。其构建融合了经典博弈模型与算法验证,为后续基于强化学习与可验证奖励的训练范式奠定了数据基础,显著推动了AI在策略推理方向的发展。
当前挑战
该数据集致力于解决博弈论形式化推理这一核心领域问题,其首要挑战在于如何将抽象的博弈概念与均衡求解过程转化为语言模型可学习、可验证的结构化任务。这要求问题设计必须精确对应纳什均衡、子博弈精炼均衡、沙普利值等复杂概念,并确保解答的数学严谨性与机器可验证性。在构建过程中,挑战体现为多维度:一是数据规模与多样性的平衡,需在涵盖正常形式、序列博弈、拍卖理论等十余个子领域的同时,保证每个问题的独特性和教学价值;二是计算验证的可靠性,需为不同博弈类型设计定制化的验证流程,如利用nashpy库计算混合策略均衡,或通过解析公式验证机制设计属性,确保所有解决方案均经过算法严格检验;三是难度梯度的科学划分,需依据问题的策略复杂度与计算深度,将样本合理分配至易、中、难三级,以支持课程的渐进式学习与模型的能力分层评估。
常用场景
经典使用场景
在博弈论与人工智能交叉领域,GameTheory-Bench数据集为大型语言模型提供了系统化的训练与评估基准。其经典使用场景在于强化学习与可验证奖励(RLVR)框架下的模型优化,通过数据集内包含的2913个经过计算验证的问题,模型能够利用答案与验证对象生成精确的奖励信号,从而提升在策略推理任务中的性能。该数据集覆盖了从经典囚徒困境到复杂机制设计的广泛主题,支持模型进行从基础到高级的渐进式学习,有效模拟了真实世界中的战略决策过程。
解决学术问题
该数据集主要解决了博弈论研究中缺乏大规模、可计算验证基准的学术空白。传统数据集往往规模有限且缺乏机器可读的验证机制,难以支撑现代强化学习与语言模型的需求。GameTheory-Bench通过提供涵盖纳什均衡、贝叶斯博弈、拍卖理论等10个核心类别的多样化问题,并辅以详细的逐步解法和验证对象,使得研究者能够系统评估模型在复杂策略推理中的能力,推动了可解释人工智能与计算博弈论的理论融合,为自动化策略分析与机制设计提供了可靠的数据基础。
衍生相关工作
围绕GameTheory-Bench数据集,已衍生出一系列具有影响力的研究工作。其中最突出的是基于该数据集训练的GameTheory-Solver模型,该模型在Qwen2.5-7B-Instruct基础上通过QLoRA微调,在贝叶斯博弈等复杂类别上实现了从0%到100%的准确率突破。此外,该数据集还促进了基于课程学习的渐进式训练方法探索,以及针对特定博弈类型的领域自适应技术发展。这些工作共同推动了可验证推理与策略生成模型的进步,为后续研究建立了坚实的实验基准与方法论框架。
以上内容由遇见数据集搜集并总结生成



