gg-bench
收藏github2025-05-16 更新2025-05-17 收录
下载链接:
https://github.com/vivek3141/gg-bench
下载链接
链接失效反馈官方服务:
资源简介:
gg-bench是一个用于评估语言模型通用推理能力的游戏环境集合。与其他静态基准不同,gg-bench是一个数据生成过程,可以随时重新生成新的评估实例。具体来说,gg-bench是通过(1)使用大型语言模型(LLM)生成新游戏的自然语言描述,(2)使用LLM将每个游戏实现为OpenAI Gym环境的代码,以及(3)通过自我对弈训练强化学习(RL)代理来生成的。
gg-bench is a collection of game environments for evaluating the general reasoning capabilities of language models. Unlike other static benchmarks, gg-bench is a data generation pipeline that can regenerate new evaluation instances at any time. Specifically, gg-bench is generated through three steps: (1) using Large Language Models (LLMs) to generate natural language descriptions of new games; (2) using LLMs to implement each game as code conforming to the OpenAI Gym environment specifications; and (3) training reinforcement learning (RL) agents via self-play.
创建时间:
2025-05-13
原始信息汇总
gg-bench数据集概述
数据集简介
- 名称:gg-bench (Measuring General Intelligence with Generated Games)
- 开发者:Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin (UC Berkeley)
- 论文:Measuring General Intelligence with Generated Games
- 代码仓库:gg-bench GitHub
数据集特点
- 评估目标:衡量语言模型在通用推理能力方面的表现
- 核心创新:动态生成评估实例的数据生成过程
- 生成流程:
- 使用LLM生成新颖游戏的自然语言描述
- 将每个游戏实现为OpenAI Gym环境
- 通过自玩训练强化学习(RL)智能体
评估方法
- 评估指标:语言模型对抗RL智能体的胜率
- 输入信息:
- 游戏描述
- 当前棋盘状态
- 有效移动列表
- 输出:模型选择的移动操作
性能表现
| 模型 | 基准分数 (±95%置信区间) |
|---|---|
| gpt-4o | 8.94 (±2.77) |
| gpt-4o-mini | 7.64 (±2.26) |
| o3-mini | 31.08 (±5.73) |
| o1 | 36.28 (±5.95) |
| claude-3.7-sonnet | 9.53 (±3.05) |
| meta-llama-3.3-70B | 7.42 (±2.78) |
| deepseek-r1 | 32.50 (±5.14) |
使用说明
-
安装要求: bash pip install -r requirements.txt pip install -e .
-
API配置:
- OpenAI:
openai_config.yaml - Anthropic:
anthropic_config.yaml - Together AI: 环境变量
TOGETHER_API_KEY
- OpenAI:
-
主要功能:
- 数据集生成 (
gg-bench generate) - RL智能体训练 (
gg-bench train) - 环境过滤 (
gg-bench filter) - LLM评估 (
gg-bench eval)
- 数据集生成 (
引用格式
bibtex @misc{verma2025measuringgeneralintelligencegenerated, title={Measuring General Intelligence with Generated Games}, author={Vivek Verma and David Huang and William Chen and Dan Klein and Nicholas Tomlin}, year={2025}, eprint={2505.07215}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2505.07215}, }
搜集汇总
数据集介绍

构建方式
在人工智能领域,评估语言模型的通用推理能力一直是一项具有挑战性的任务。gg-bench数据集通过创新的数据生成流程构建而成,采用三阶段方法:首先利用大型语言模型生成新颖游戏的自然语言描述,随后将这些描述转化为可执行的OpenAI Gym环境代码,最后通过自博弈方式训练强化学习智能体。这种动态生成机制使得评估实例能够按需再生,突破了传统静态基准测试的局限性。
特点
gg-bench数据集以其动态性和挑战性著称。作为数据生成过程的产物,它能够持续产生新颖的游戏环境,有效避免了测试数据的过拟合问题。该数据集特别设计了对抗性评估框架,要求语言模型根据游戏描述、当前棋盘状态和有效移动列表进行决策,与强化学习智能体展开对抗。实验数据表明,即使是GPT-4o等顶尖模型在该基准上的胜率也仅维持在7-9%之间,充分体现了其评估难度和区分度。
使用方法
使用gg-bench数据集需要完成完整的安装配置流程。通过命令行工具可实现数据集生成、强化学习训练和模型评估三大功能模块。评估阶段需要配置相应的API密钥,支持对OpenAI、Anthropic等主流模型进行测试。用户可选择单环境或多环境并行评估模式,系统会生成包含胜率统计的JSON格式结果文件。值得注意的是,多环境评估会占用大量计算资源,需要谨慎管理API调用成本。
背景与挑战
背景概述
gg-bench是由加州伯克利分校的Vivek Verma、David Huang、William Chen、Dan Klein和Nicholas Tomlin等研究人员共同开发的一个创新型数据集,旨在通过生成游戏来评估语言模型的通用推理能力。该数据集采用动态生成机制,利用大语言模型(LLM)创造新颖的游戏描述,并将其编码为OpenAI Gym环境,进而通过自我对弈训练强化学习(RL)智能体。gg-bench不仅突破了传统静态基准测试的局限,还为衡量人工智能在复杂、动态环境中的表现提供了全新范式。其核心研究问题聚焦于如何量化语言模型在未知游戏情境中的策略推理与决策能力,对推动通用人工智能的发展具有深远意义。
当前挑战
gg-bench面临的挑战主要体现在两个方面:在领域问题层面,该数据集旨在解决语言模型在动态生成环境中的通用推理能力评估难题,但现有先进模型如GPT-4o和Claude 3.7 Sonnet的胜率仅为7-9%,凸显出当前AI系统在复杂策略推理方面的局限性;在构建过程中,研究人员需克服三大技术挑战:确保LLM生成游戏规则的多样性与合理性、实现游戏环境代码的准确转换,以及设计有效的RL智能体训练框架以生成具有足够挑战性的对手。这些挑战使得gg-bench成为衡量AI系统通用智能水平的严格测试平台。
常用场景
经典使用场景
在人工智能领域,评估语言模型的通用推理能力一直是研究热点。gg-bench通过生成多样化的游戏环境,为语言模型提供了一个动态测试平台。研究者可以利用该数据集,让语言模型根据游戏描述、当前棋盘状态和有效移动列表进行决策,从而全面评估模型在复杂环境中的推理和决策能力。这种评估方式超越了传统静态基准测试的局限,能够更真实地反映模型的通用智能水平。
实际应用
在实际应用中,gg-bench为开发更强大的语言模型提供了重要参考。企业可以利用该数据集测试不同模型在复杂决策任务中的表现,从而选择最适合特定应用场景的模型架构。教育领域可将其作为评估学生编程和逻辑思维能力的工具。此外,游戏行业也能借鉴其生成机制,开发更具挑战性和多样性的智能游戏系统。
衍生相关工作
gg-bench的发布催生了一系列相关研究。基于其评估框架,学者们开发了更精细的语言模型推理能力测评方法。部分工作聚焦于改进数据生成过程,以创建更具挑战性的游戏环境。另一些研究则利用该数据集训练专门的推理增强模型,如o1和DeepSeek-R1等。这些衍生工作共同推动了通用人工智能评估标准的发展和完善。
以上内容由遇见数据集搜集并总结生成



