TurtleBench1.5k

Hugging Face2024-10-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Duguce/TurtleBench1.5k

下载链接

链接失效反馈

官方服务：

资源简介：

TurtleBench是一个新颖的评估基准，旨在通过是/否谜题（通常称为“Turtle Soup谜题”）评估大型语言模型（LLMs）的推理能力。该数据集基于从我们的在线Turtle Soup Puzzle平台收集的用户猜测构建，提供了一种动态和互动的评估方式。与传统的静态评估基准不同，TurtleBench专注于在互动环境中测试模型，以更好地捕捉其逻辑推理性能。数据集包含真实的用户猜测和注释的响应，为现代LLMs提供了一个公平且具有挑战性的评估。数据集分为两个主要文件夹：`english`和`chinese`，分别对应TurtleBench基准的双语性质。每个语言文件夹包含`cases.list`、`stories.json`和`titles.txt`（仅在中文文件夹中）。数据集包含1,532个条目，源自超过26,000个用户在Turtle Soup Puzzle游戏中的猜测。用户仅基于提供的表面故事进行逻辑猜测，而正确答案则源自底部故事。所有用户猜测都根据底部故事提供的推理上下文被注释为“正确”或“不正确”。TurtleBench的主要特点包括动态评估、双语数据集和互动推理。

创建时间：

2024-10-04

原始信息汇总

TurtleBench 数据集概述

概述

TurtleBench 是一个新颖的评估基准，旨在通过是/否谜题（通常称为“Turtle Soup 谜题”）评估大型语言模型（LLMs）的推理能力。该数据集基于从我们的在线 Turtle Soup Puzzle 平台收集的用户猜测构建，提供了一种动态和交互式的评估方式。与传统的静态评估基准不同，TurtleBench 专注于在交互环境中测试模型，以更好地捕捉其逻辑推理性能。数据集包含真实的用户猜测和注释的响应，为现代 LLMs 提供了一个公平且具有挑战性的评估。

数据集内容

数据集分为两个主要文件夹：english 和 chinese，对应于 TurtleBench 基准的双语特性。每个语言文件夹包含：

cases.list：数据集中使用的 Turtle Soup 案例列表。
stories.json：包含表面故事及其对应的“底部”故事的 JSON 文件，这些底部故事提供了回答谜题所需的隐藏上下文。
titles.txt（仅在 chinese 文件夹中）：故事的标题列表。

数据收集

数据集包含 1,532 个条目，这些条目源自 Turtle Soup Puzzle 游戏中超过 26,000 个用户猜测。用户仅根据提供的表面故事进行逻辑猜测，而正确答案则源自底部故事。所有用户猜测都根据底部故事提供的推理上下文被注释为“正确”或“不正确”。

关键特性

动态评估：TurtleBench 通过持续收集用户交互，允许进行真实世界的评估，这使得模型更难以通过记忆静态问题和答案来作弊。
双语：数据集包括中文和英文数据，确保对 LLM 推理能力进行多样化的评估。英文数据集源自原始中文数据集的翻译。
交互式推理：数据集特别策划，要求逻辑推理，避免过度依赖背景知识，而是专注于模型理解和从给定上下文中得出结论的能力。

使用

我们在 GitHub 上发布了 TurtleBench 的评估代码。如果您希望使用此数据集进行评估，请参考以下 GitHub 链接中的代码： https://github.com/mazzzystar/TurtleBench

搜集汇总

数据集介绍

构建方式

TurtleBench1.5k数据集的构建基于在线Turtle Soup Puzzle平台收集的用户猜测数据，旨在评估大型语言模型（LLMs）的逻辑推理能力。数据集通过用户互动生成，包含超过26,000条用户猜测，最终筛选出1,532条有效条目。每条数据均标注为“正确”或“错误”，并基于隐藏的“底部故事”进行验证，确保推理过程的严谨性。这种动态的构建方式使得数据集能够更真实地反映模型在实际应用中的表现。

特点

TurtleBench1.5k数据集具有动态评估、双语支持和交互式推理三大特点。其动态评估机制通过持续收集用户互动数据，避免了模型通过记忆静态问题答案进行作弊的可能。数据集涵盖中文和英文两种语言，确保了对LLMs推理能力的多样化评估。此外，数据集特别强调逻辑推理能力，要求模型从给定上下文中推导结论，而非依赖背景知识，从而更精准地测试模型的推理性能。

使用方法

TurtleBench1.5k数据集的使用方法较为直观，用户可通过GitHub获取评估代码进行模型测试。数据集以JSONL格式存储，分为中文和英文两个文件夹，分别包含完整的最终数据集和用于构建的中间数据。用户可根据需求选择语言版本，并通过提供的代码库进行模型推理能力的评估。具体使用方法可参考GitHub链接：https://github.com/mazzzystar/TurtleBench。

背景与挑战

背景概述

TurtleBench1.5k数据集由Qingchen Yu等研究人员于2024年创建，旨在评估大型语言模型（LLMs）在逻辑推理任务中的表现，特别是通过‘是/否’谜题（即‘Turtle Soup谜题’）进行测试。该数据集基于在线Turtle Soup Puzzle平台收集的用户猜测构建，提供了动态且交互式的评估手段。与传统的静态评估基准不同，TurtleBench专注于在交互式环境中测试模型，以更准确地捕捉其逻辑推理能力。数据集包含真实用户的猜测和标注的响应，为现代LLMs提供了公平且具有挑战性的评估环境。其双语特性（中文和英文）进一步增强了数据集的多样性和适用性。

当前挑战

TurtleBench1.5k数据集在构建和应用过程中面临多重挑战。首先，其核心任务是评估LLMs在逻辑推理任务中的表现，这要求模型不仅具备语言理解能力，还需具备复杂的推理能力。然而，逻辑推理本身具有高度抽象性和多样性，模型容易陷入表面理解而忽略深层逻辑关系。其次，数据集的构建依赖于用户交互，这带来了数据质量和一致性的挑战。用户猜测的多样性和不确定性可能导致数据噪声，影响评估结果的可靠性。此外，双语数据的翻译和一致性维护也增加了数据处理的复杂性，尤其是在确保中英文版本逻辑等价性方面。这些挑战共同构成了TurtleBench1.5k在逻辑推理评估领域的独特难度。

常用场景

经典使用场景

TurtleBench1.5k数据集主要用于评估大型语言模型（LLMs）在逻辑推理任务中的表现，特别是通过‘是/否’谜题（即‘Turtle Soup谜题’）来测试模型的推理能力。该数据集通过收集用户在在线谜题平台上的猜测数据，提供了一个动态且交互式的评估环境，能够更真实地反映模型在实际应用中的推理性能。

衍生相关工作

TurtleBench1.5k数据集的发布催生了一系列相关研究工作，特别是在多语言推理和动态评估领域。基于该数据集的研究成果不仅推动了大型语言模型在逻辑推理任务中的性能提升，还为开发更复杂的交互式评估框架提供了理论基础和实践经验。相关研究还进一步探索了模型在不同语言和文化背景下的推理能力差异，为多语言模型的优化提供了新的方向。

数据集最近研究