TurtleBench-extended-en

Hugging Face2024-12-24 更新2024-12-25 收录

下载链接：

https://huggingface.co/datasets/nycu-ai113-dl-final-project/TurtleBench-extended-en

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含英语Turtle Soup谜题，设计用于逆向思维游戏。数据集是Duguce/TurtleBench1.5k的扩展，旨在为Turtle-soup游戏提供高质量的推理数据。数据涵盖了各种高难度推理场景，支持中文和英文，并采用了多种增强方法以提高多样性和逻辑一致性。数据集包含1500个条目，分为训练集和测试集，分别有8000和2000个条目。数据结构包括id、title、surface、bottom、user_guess和label等字段，用于详细记录推理故事的上下文和答案标签。数据集的标签分布为T（正确）46.4%，F（错误）42.4%，N（无关）11.2%。增强方法包括基于翻译的数据（59.0%）、手动标注（20.0%）、Turtle基准（15.0%）和模型增强（6.0%）。

创建时间：

2024-12-18

原始信息汇总

Turtle Soup Dataset (English)

数据集概述

该数据集是Duguce/TurtleBench1.5k的扩展，旨在为Turtle-soup Game提供高质量的推理数据。数据涵盖了各种高难度推理场景，支持中文和英文，并结合了多种增强方法以提高多样性和逻辑一致性。

数据来源

原始数据集来自Hugging Face，并根据Apache License 2.0授权。
扩展数据集由基于翻译的、标注的、基准的和模型生成的数据组成，详细如下。

数据结构

数据集包含以下字段，每个条目详细记录了Turtle Soup故事的推理上下文和答案标签：

字段名称	描述
`id`	故事的唯一标识符。
`title`	Turtle Soup故事的标题。
`surface`	故事的表面信息，即玩家可以直接获得的线索。
`bottom`	故事的深层背景，即玩家需要推断的上下文或答案。
`user_guess`	玩家对故事的假设或猜测。
`label`	标签：`T`（正确）：正确的猜测，`F`（错误）：错误的猜测，`N`（无关）：与问题无关的猜测。

数据分布

原始数据标签分布

数据集包含1500个条目，分布如下：

T (True): 46.4% - 表示猜测是正确的。
F (False): 42.4% - 表示猜测是错误的。
N (Irrelevant): 11.2% - 表示猜测与问题无关。

增强方法及比例

为提高多样性和逻辑一致性，应用了以下增强方法：

基于翻译的数据: 59.0%
- 使用翻译技术生成，例如将英语翻译成韩语再翻译回英语，确保语义逻辑和内容多样性。
手动标注: 20.0%
- 手动创建的数据，满足N（无关）标签的条件，以平衡标签分布。
Turtle基准: 15.0%
- 专门为Turtle-soup Game设计的基准，涵盖各种高难度推理场景，为推理能力提供基线评估。
模型增强: 6.0%
- 由模型生成的初始数据，经过手动筛选以增强多样性和覆盖范围。

数据分割

数据集分为训练集和测试集，确保测试集中的故事不出现在训练集中：

训练集 (Train Dataset): 8000个条目
测试集 (Test Dataset): 2000个条目

许可证

该数据集根据Apache License 2.0授权，仅用于学术研究。
如果您使用此数据集，请引用原始数据集：Duguce/TurtleBench1.5k。

搜集汇总

数据集介绍

构建方式

TurtleBench-extended-en数据集的构建基于对原始数据集[Duguce/TurtleBench1.5k](https://huggingface.co/datasets/Duguce/TurtleBench1.5k)的扩展，旨在为Turtle-soup游戏提供高质量的推理数据。该数据集通过多种增强方法来提升数据的多样性和逻辑一致性，包括基于翻译的数据生成、手动标注、基准测试数据以及模型生成的数据。具体而言，翻译技术被用于生成59.0%的数据，确保了语义逻辑和内容的多样性；手动标注占20.0%，主要用于平衡标签分布；基准测试数据占15.0%，涵盖了高难度的推理场景；模型生成的数据占6.0%，经过人工筛选以增强数据的多样性和覆盖范围。

特点

TurtleBench-extended-en数据集的显著特点在于其多样化的数据来源和增强方法，确保了数据的高质量和逻辑一致性。数据集包含了1500个条目，涵盖了多种高难度的推理场景，支持中英文双语。标签分布均衡，其中正确猜测（T）占46.4%，错误猜测（F）占42.4%，无关猜测（N）占11.2%。此外，数据集通过翻译、手动标注、基准测试和模型生成等多种方法进行增强，进一步提升了数据的多样性和推理能力。

使用方法

TurtleBench-extended-en数据集适用于多种自然语言处理任务，特别是需要复杂推理能力的应用场景。用户可以通过访问Hugging Face平台下载该数据集，并将其用于训练和测试推理模型。数据集已被划分为训练集（8000条目）和测试集（2000条目），确保了模型在不同数据集上的泛化能力。在使用该数据集时，用户应遵循Apache License 2.0许可协议，并在相关研究中引用原始数据集[Duguce/TurtleBench1.5k](https://huggingface.co/datasets/Duguce/TurtleBench1.5k)。

背景与挑战

背景概述

TurtleBench-extended-en数据集是基于Duguce/TurtleBench1.5k的扩展版本，旨在为Turtle-soup游戏提供高质量的推理数据。该数据集由多个研究人员和机构共同开发，涵盖了多种高难度推理场景，支持中英文双语，并通过多种增强方法提升了数据的多样性和逻辑一致性。数据集的核心研究问题在于如何通过逆向思维游戏训练和评估推理能力，特别是在复杂情境下的逻辑推理。该数据集的发布对推理游戏领域具有重要意义，为相关研究提供了丰富的数据资源和基准评估工具。

当前挑战

TurtleBench-extended-en数据集在构建过程中面临多项挑战。首先，如何确保翻译数据在不同语言间的语义逻辑一致性是一个关键问题。其次，手动标注数据的复杂性和耗时性限制了数据集的扩展速度。此外，模型生成数据的准确性和多样性需要通过严格的手动筛选来保证。在应用层面，该数据集面临的挑战是如何在推理游戏中有效利用这些数据，以提升玩家的逻辑推理能力，并确保游戏体验的公平性和趣味性。

常用场景

经典使用场景

TurtleBench-extended-en数据集的经典使用场景主要集中在逆向思维游戏的推理任务中。该数据集通过提供丰富的Turtle Soup谜题，支持玩家在复杂情境下进行逻辑推理和答案推断。其设计不仅涵盖了多种高难度推理场景，还通过多样的数据增强方法确保了数据的多样性和逻辑一致性，为研究者和开发者提供了高质量的推理数据资源。

解决学术问题

TurtleBench-extended-en数据集解决了逆向思维游戏领域中推理数据稀缺和多样性不足的问题。通过引入翻译、手动标注、基准测试和模型生成等多种数据增强方法，该数据集显著提升了推理任务的复杂性和多样性，为研究者提供了丰富的实验材料。这不仅推动了逆向思维游戏的研究进展，还为相关领域的算法优化和模型评估提供了坚实的基础。

衍生相关工作

TurtleBench-extended-en数据集的发布催生了一系列相关研究工作，特别是在逆向思维游戏和推理任务的算法优化方面。研究者们利用该数据集开发了多种推理模型，并通过实验验证了这些模型在复杂推理任务中的有效性。此外，该数据集还激发了对数据增强技术和标注方法的深入研究，推动了相关领域的技术进步和创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集