EscapeBench

github2024-12-20 更新2024-12-28 收录

下载链接：

https://github.com/qiancheng0/EscapeBench

下载链接

链接失效反馈

官方服务：

资源简介：

EscapeBench是一个用于测试语言模型创造力的基准数据集。它包括基准数据、BaseAgent和EscapeAgent的实现以及运行测试的脚本。

EscapeBench is a benchmark dataset for evaluating the creativity of language models. It comprises the benchmark data, the implementations of BaseAgent and EscapeAgent, as well as the scripts for running the tests.

创建时间：

2024-12-15

原始信息汇总

EscapeBench 数据集概述

数据集简介

EscapeBench 是一个用于测试语言模型创造力的基准数据集。该数据集包含基准数据、BaseAgent 和 EscapeAgent 的实现，以及运行测试的脚本。

数据集结构

src/ 目录:
- agent_base.py: BaseAgent 的实现
- agent_creative.py: EscapeAgent 的实现
- human.py: 人类玩家接口
- env/: 核心游戏引擎设计，包括场景、物品、工具等
data/ 目录:
- <game>.yaml: 不同难度级别的游戏设置文件
- check_data.py: 检查游戏数据逻辑错误的脚本
- reference/: 成功完成游戏的动作链，作为提示参考

游戏设置

每个游戏设置的数据逻辑如下： yaml

name: <scene name> desc: <scene description> scene_relations: <prompt>: <nearby scene name> ... items:
- position: <position of item> item: name: <item name> interactable: <True/False> visible: <True/False> states:
  - desc: <item description> neg_reward: <negative env feedback if wrong action is tried> transitions:
    - wait_for:
      - <waited action> [click], [apply <tool name>], [input <str>] trigger:
      - <trigger effect> [change_visible, scene/item/tool, <name>, True/False], [change_interact, item, <name>, True/False], [change_state, item/tool, <name>, <int>], [become_tool, <name>] reward: <positive env feedback if correct action is performed> tools:
  - position: <position of tool> tool: name: fragment visible: <True/False> states: - desc: <tool description> [apply_to/wait_for]: - <tool name>

排行榜

当前 EscapeBench 性能排行榜如下：

排名	代理模型	提示使用次数	总步数
1	Claude-3.5-Sonnet	8.97	690.31
2	GPT-4o	10.30	723.61
3	Gemini-1.5-pro	11.06	824.31
4	Llama-3.1-70B	14.53	982.42
5	GPT-4o-mini	15.19	1002.39
6	Qwen2.5-72B	16.50	1102.50
7	Yi-1.5-34B	24.00	1573.33
8	Ministral	25.31	1556.97
9	DeepSeek-LLM-67B	25.50	1558.47
10	Llama-3.1-8B	25.86	1543.30

引用

text @article{qian2024escapebench, title={EscapeBench: Pushing Language Models to Think Outside the Box}, author={Qian, Cheng and Han, Peixuan and Luo, Qinyu and He, Bingxiang and Chen, Xiusi and Zhang, Yuji and Du, Hongyi and Yao, Jiarui and Yang, Xiaocheng and Zhang, Denghui and Li, Yunzhu and Ji, Heng}, journal={arXiv preprint arXiv:2412.13549}, year={2024} }

搜集汇总

数据集介绍

构建方式

EscapeBench数据集的构建旨在评估语言模型的创造力，其核心设计围绕一系列逃脱游戏场景展开。每个游戏场景通过YAML文件详细定义了场景描述、物品位置、工具属性及其交互逻辑。数据集的构建过程包括场景关系的设计、物品与工具的状态转换规则，以及正向与负向反馈机制的设定。通过这种结构化的方式，数据集能够模拟复杂的逃脱任务，为语言模型提供多样化的挑战。

特点

EscapeBench数据集的特点在于其高度结构化的游戏场景设计和丰富的交互逻辑。每个游戏场景包含多个物品和工具，其可见性、可交互性及状态转换均通过明确的规则定义。数据集支持多种难度级别，从简单到复杂，能够全面测试语言模型在不同情境下的创造力与推理能力。此外，数据集还提供了参考动作链，帮助用户理解游戏逻辑并优化模型表现。

使用方法

使用EscapeBench数据集时，用户可通过OpenAI API或开源模型进行测试。对于OpenAI API，用户需在`secret.json`中配置API密钥，并通过脚本运行基准测试或创造力测试。对于开源模型，用户需通过vLLM框架部署模型，并调整超参数以适应硬件环境。此外，数据集支持人类玩家模式，用户可通过命令行交互体验游戏，并保存进度以便后续继续。通过这种方式，用户能够全面评估语言模型在逃脱任务中的表现。

背景与挑战

背景概述

EscapeBench数据集由Cheng Qian等研究人员于2024年提出，旨在评估语言模型在创造性思维方面的表现。该数据集通过设计一系列逃脱游戏场景，测试模型在复杂情境下的推理和创新能力。EscapeBench的发布标志着语言模型评估从传统的任务导向型向更具挑战性的创造性思维领域迈进。该数据集不仅为研究者提供了一个标准化的评估平台，还推动了语言模型在非结构化问题解决能力上的研究进展。其影响力逐渐扩展至自然语言处理、人工智能以及认知科学等多个领域，成为衡量模型创新能力的重要基准。

当前挑战

EscapeBench数据集在解决语言模型创造性思维评估问题时，面临多重挑战。首先，设计能够有效衡量模型创造力的游戏场景需要极高的逻辑复杂性和多样性，以确保评估的全面性和公平性。其次，构建过程中需确保游戏数据的逻辑一致性，避免出现矛盾或错误，这对数据集的严谨性提出了严格要求。此外，如何在不同模型之间进行公平比较，尤其是在模型架构和训练数据差异较大的情况下，也是一个亟待解决的难题。这些挑战不仅考验了数据集的构建质量，也对未来语言模型的研究方向提出了新的思考。

常用场景

经典使用场景

EscapeBench数据集在语言模型（LMs）的创造力评估中扮演着关键角色。通过设计一系列复杂的逃脱游戏场景，该数据集能够有效测试模型在非结构化环境下的问题解决能力。研究者可以利用该数据集评估模型在面对复杂逻辑和多样化任务时的表现，从而深入理解模型在创造性思维方面的潜力。

实际应用

在实际应用中，EscapeBench数据集被广泛用于评估和优化各类语言模型的创造性表现。通过该数据集，开发者能够识别模型在复杂任务中的弱点，并针对性地进行改进。此外，该数据集还为教育领域提供了新的工具，帮助学生在虚拟环境中培养创造性思维和问题解决能力。

衍生相关工作

EscapeBench数据集的推出催生了一系列相关研究，特别是在语言模型创造性评估领域。许多研究基于该数据集开发了新的评估方法和模型优化策略，进一步推动了语言模型在非结构化任务中的应用。此外，该数据集还激发了跨学科研究，如心理学与人工智能的结合，探索人类与机器在创造性思维上的异同。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集