LogicGame

github2024-10-10 更新2024-10-18 收录

下载链接：

https://github.com/Hypatiaalegra/LogicGame-Data

下载链接

链接失效反馈

官方服务：

资源简介：

LogicGame 是一个用于评估大型语言模型（LLMs）逻辑规则理解、执行和规划能力的基准。它包含多样化的游戏，具有预定义的规则，专门设计用于独立于知识评估逻辑推理。该基准测试模型在不同难度级别上的表现，旨在全面评估基于规则的推理和多步骤执行与规划的能力。

LogicGame is a benchmark for evaluating the logical rule comprehension, execution, and planning capabilities of large language models (LLMs). It encompasses a diverse set of games with predefined rules, which are specifically designed to assess logical reasoning independently of prior knowledge. This benchmark assesses model performance across different difficulty levels, with the aim of comprehensively measuring rule-based reasoning, multi-step execution, and planning abilities.

创建时间：

2024-09-28

原始信息汇总

LogicGame-Data 数据集概述

简介

LogicGame 是一个用于评估大型语言模型（LLMs）逻辑规则理解、执行和规划能力的基准测试。该基准测试包含多种具有预定义规则的游戏，旨在独立于知识评估逻辑推理能力。测试模型在不同难度级别上的表现，以全面评估其在基于规则的推理和多步骤执行与规划方面的性能。

数据描述

该项目包含四个 .jsonl 文件：en_dev、zh_dev、en_all 和 zh_all。这些文件分别代表英语和中文版本的开发集（dev）和完整集（whole sets）。每种语言版本与其对应版本直接对应。开发集每种语言包含 10 个条目，而完整集每种语言包含 304 个条目。

zh_all 和 en_all 文件用于 Codabench 提交，您可以利用这些文件中的 contexts 作为提示来获取模型响应以进行评估。
开发集主要用于详细展示目的。

开发集字段

qid: 数据条目的唯一标识符。
contexts: 基准问题，包含规则、问题和输出约束的组合。
reference: 参考 JSON 答案和过程。
level: 难度级别，范围从 0 到 3。
examples: 少样本示例。
category: 数据的类型/类别。

完整集字段

qid: 数据条目的唯一标识符。
contexts: 基准问题。
level: 问题的难度级别。
category: 数据的类别/任务。

排行榜

以下是 14 个模型在 LogicGame 基准测试中的表现，最佳性能以粗体标记。

中文版本模型表现

模型	AP-Acc%	A-Acc%	P-Acc%	IFError%	JSError%
o1-preview	54.93	67.11	66.85	0.00	0.00
o1-mini	51.97	63.49	64.97	0.00	0.00
claude-3-5-sonnet	30.26	39.47	43.20	0.00	0.00
gpt-4o	26.97	35.86	39.25	0.33	0.00
gpt-4-turbo-0409	25.66	32.24	38.18	0.99	0.66
glm-4-plus	21.71	28.29	32.76	9.21	0.33
qwen2-72b	20.39	27.96	32.61	2.63	0.99
llama-3-70b	12.50	19.41	21.62	13.16	0.33
claude-3-haiku	9.54	14.80	16.82	2.63	0.33
glm-4-9b	7.57	12.83	11.27	20.39	0.99
internlm2-5-7b	4.61	7.24	9.81	11.18	3.29
llama-3-8b	3.62	5.26	9.31	35.53	0.00
mistral-7b	2.96	3.95	6.63	26.32	6.25
qwen2-7b	2.63	4.61	7.32	3.29	2.96

英文版本模型表现

模型	AP-Acc%	A-Acc%	P-Acc%	IFError%	JSError%
o1-preview	53.29	65.46	64.82	0.33	0.00
o1-mini	49.67	61.18	63.25	0.66	0.33
claude-3-5-sonnet	29.28	37.17	43.48	0.33	0.00
gpt-4o	28.29	41.12	42.43	0.66	0.66
gpt-4-turbo-0409	21.05	28.95	33.83	0.66	0.99
glm-4-plus	17.76	24.34	28.36	6.91	0.66
qwen2-72b	8.88	13.82	18.56	24.67	0.66
glm-4-9b	7.89	9.87	13.05	17.11	1.64
internlm2-5-7b	6.25	7.89	13.06	13.16	1.32
claude-3-haiku	4.93	8.55	12.60	0.00	1.64
llama-3-70b	4.61	8.55	11.44	55.59	0.33
mistral-7b	4.28	5.26	6.95	17.43	8.88
qwen2-7b	1.64	3.95	5.56	1.64	8.22
llama-3-8b	0.00	1.64	2.85	68.42	0.33

搜集汇总

数据集介绍

构建方式

LogicGame数据集的构建旨在评估大型语言模型（LLMs）在逻辑规则理解、执行和规划方面的能力。该数据集包含多种游戏，每种游戏都有预定义的规则，旨在独立于知识背景评估逻辑推理能力。数据集分为四个`.jsonl`文件：`en_dev`、`zh_dev`、`en_all`和`zh_all`，分别代表英语和中文的开发集和完整集。开发集每种语言包含10个条目，而完整集每种语言包含304个条目。每个条目包含唯一标识符（qid）、上下文（contexts）、参考答案（reference）、难度级别（level）、示例（examples）和类别（category）。

特点

LogicGame数据集的主要特点在于其多样性和难度层次的设置。数据集中的游戏规则设计精巧，能够有效测试模型在不同难度级别下的逻辑推理能力。此外，数据集提供了中英双语版本，确保了跨语言的评估一致性。每个条目的详细字段设置，如上下文、参考答案和难度级别，使得数据集在评估模型性能时具有高度的灵活性和精确性。

使用方法

LogicGame数据集的使用方法主要包括两个方面：一是作为开发集（dev set）用于详细展示和初步测试，二是作为完整集（whole set）用于全面评估模型性能。用户可以通过提供的上下文作为提示，获取模型的响应进行评估。此外，数据集还支持在[Codabench平台](https://www.codabench.org/competitions/4140/)上进行模型性能的竞赛和比较，用户可以利用`zh_all`和`en_all`文件作为输入数据，进行模型响应的生成和评估。

背景与挑战

背景概述

LogicGame数据集由一支专注于评估大型语言模型（LLMs）逻辑规则理解、执行和规划能力的研究团队创建。该数据集于2024年发布，旨在通过多样化的游戏和预定义的规则，独立于知识背景，全面测试模型的逻辑推理能力。LogicGame数据集不仅涵盖了从简单到复杂的多个难度级别，还通过其独特的评估方法，对相关领域的研究产生了深远影响，特别是在推动LLMs在规则基础推理和多步骤执行与规划方面的性能提升。

当前挑战

LogicGame数据集在构建过程中面临的主要挑战包括：首先，设计多样化的游戏规则以确保测试的全面性和公平性；其次，确保数据集在不同语言版本（如英语和中文）之间的一致性和可比性。此外，数据集的评估标准和方法也需不断优化，以准确反映模型的实际性能。在应用层面，如何有效利用该数据集提升LLMs的逻辑推理能力，仍是一个亟待解决的问题。

常用场景

经典使用场景

LogicGame数据集的经典使用场景主要集中在评估大型语言模型（LLMs）的逻辑规则理解、执行和规划能力。通过提供多样化的游戏和预定义的规则，该数据集能够独立于知识背景，全面测试模型在不同难度级别的逻辑推理能力。研究者可以利用这些数据集来开发和优化模型，以提高其在复杂逻辑任务中的表现。

解决学术问题

LogicGame数据集解决了在评估大型语言模型逻辑推理能力时缺乏标准化和系统化测试的问题。通过提供结构化的逻辑游戏和多层次的难度设置，该数据集为学术界提供了一个统一的基准，用于比较和评估不同模型的逻辑推理性能。这不仅有助于推动逻辑推理研究的发展，还为模型优化提供了明确的方向。

衍生相关工作

基于LogicGame数据集，许多研究工作已经展开，包括开发新的逻辑推理算法、优化现有模型的性能以及探索不同模型在逻辑任务中的表现差异。此外，该数据集还激发了跨学科的研究，如结合心理学和认知科学的方法来理解人类和机器在逻辑推理中的相似性和差异。这些衍生工作不仅丰富了逻辑推理领域的研究内容，还为实际应用提供了理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集