synthetic-gsm8k-reflection-405b

Name: synthetic-gsm8k-reflection-405b
Creator: Gretel.ai
Published: 2024-09-11 09:19:29
License: 暂无描述

Hugging Face2024-09-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/gretelai/synthetic-gsm8k-reflection-405b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个基于GSM8K数据集的合成版本，使用Gretel Navigator和meta-llama/Meta-Llama-3.1-405B生成。它包含小学级别的推理任务，具有逐步的反思和解决方案，专注于多步骤推理问题。数据集具有以下特点：合成生成、综合的合成数据管道、反思提示、训练和测试集、多样化的现实世界情境、按难度分类。数据集的列包括难度、难度描述、主题、上下文、年龄组、文化、问题、答案、答案反思和答案输出。数据集的统计和分布显示了主题和难度的分布。

提供机构：

Gretel.ai

创建时间：

2024-09-11

原始信息汇总

gretelai/synthetic-gsm8k-reflection-405b

概述

语言: 英语
许可: llama3.1
多语言性: 单语种
数据集大小: 1K<n<10K
数据来源: 原始数据
任务类别: 问答
任务ID: 封闭领域问答
PapersWithCode ID: gsm8k

数据集描述

生成方式: 使用Gretel Navigator和meta-llama/Meta-Llama-3.1-405B生成的合成数据集，灵感来自GSM8K数据集。
内容: 包含小学级别的推理任务，具有逐步的反思和解决方案，专注于多步推理问题。

关键特性

合成生成: 使用Gretel Navigator，利用反思技术生成question和answer字段。
综合合成数据管道: 仅存储answer字段的反思，捕捉逐步的思维过程。使用上下文标签确保多样性，并使用LLM作为判断来验证输出质量。所有计算均使用Python的sympy库严格验证。
反思提示: 包括结构化推理，使用<thinking>、<reflection>和<output>标签捕捉AI的内部决策过程。
训练与测试集: 包含300个示例的测试集，按主题和难度分层。
多样化的现实世界情境: 涵盖广泛的主题，确保模型在反映现实世界场景的问题上进行训练。
按难度分类: 问题分为三个难度级别——中等、困难和非常困难，允许更细粒度的评估。

数据集列描述

difficulty: 问题的难度级别。
difficulty_description: 问题的复杂性和所需推理的描述。
topic: 问题的主题或学科。
context: 问题设置的上下文。
age_group: 问题的目标年龄或年级。
culture: 问题中反映的文化背景或环境。
question: 向模型提出的问题或问题。
answer: 问题的最终解决方案。
answer_reflection: 逐步的思维过程，包括思考和反思。
answer_output: 反思问题后的最终输出。

数据集统计和分布

主题分布:

主题	训练集	测试集
代数	138	22
算术	181	28
复利	141	22
数据解释	154	23
指数增长/衰减	122	19
分数	143	21
几何	137	20
优化	139	21
百分比	202	31
多项式	109	16
概率	162	24
比例	166	25
比率	184	28

难度分布:

难度训练集测试集

困难 659 100

中等 737 112

非常困难 582 88

引用和使用

引用:

@dataset{gretelai_gsm8k_synthetic, author = {Gretel AI}, title = {Synthetically Generated Reasoning Dataset (GSM8k-inspired) with enhanced diversity using Gretel Navigator and meta-llama/Meta-Llama-3.1-405B}, year = {2024}, month = {9}, publisher = {Gretel}, howpublished = {https://huggingface.co/gretelai/synthetic-gsm8k-reflection-405b}, }

搜集汇总

数据集介绍

构建方式

该数据集基于GSM8K数据集，通过Gretel Navigator工具结合meta-llama/Meta-Llama-3.1-405B模型生成，专注于多步推理问题的解决。数据生成过程中，采用了自动化输出验证和质量评估机制，确保数据的准确性和一致性。每个问题均包含详细的思考、反思和输出标签，以捕捉AI的决策过程。此外，计算注释通过Python的`sympy`库进行验证，进一步提升了数据的可靠性。

特点

该数据集的特点在于其多样性和结构化。数据集涵盖了广泛的现实场景，包括代数、几何、概率等多个主题，并通过难度分级（简单、中等、困难、极难）提供不同复杂度的推理问题。每个问题均附有详细的上下文描述和年龄组标签，帮助模型更好地理解问题的背景。此外，数据集还包含1300个测试样本，按主题和难度分层，便于模型评估和泛化能力的测试。

使用方法

该数据集适用于自然语言推理任务的研究和开发。用户可以通过分析`question`和`answer_with_tags`字段，了解模型在多步推理问题中的决策过程。数据集中的`difficulty`和`topic`字段可用于构建不同难度和主题的训练集，以测试模型的泛化能力。此外，测试集的分层设计为模型评估提供了标准化的基准。使用该数据集时，建议引用Gretel AI提供的引用格式，以确保学术规范。

背景与挑战

背景概述

synthetic-gsm8k-reflection-405b数据集是由Gretel AI于2024年9月发布的一个合成生成的数据集，灵感来源于GSM8K数据集。该数据集专注于小学级别的多步推理问题，通过Gretel Navigator工具和meta-llama/Meta-Llama-3.1-405B模型生成，旨在捕捉AI在解决复杂问题时的思维过程。数据集包含丰富的现实场景，涵盖代数、几何、概率等多个主题，并通过结构化标签（如<thinking>、<reflection>等）详细记录了AI的决策过程。该数据集的发布为自然语言推理领域的研究提供了新的资源，推动了AI在复杂问题解决中的透明性和可解释性研究。

当前挑战

synthetic-gsm8k-reflection-405b数据集面临的挑战主要包括两个方面。首先，在领域问题方面，尽管数据集通过结构化标签记录了AI的推理过程，但如何确保这些推理步骤的准确性和逻辑一致性仍然是一个关键问题。其次，在数据构建过程中，尽管使用了Gretel Navigator和LLM-as-a-judge进行质量验证，但合成数据的多样性和真实性仍需进一步提升，以避免模型在训练过程中出现过拟合或泛化能力不足的问题。此外，数据集中不同难度级别和主题的平衡性也需要进一步优化，以确保模型能够在广泛的场景中表现出色。

常用场景

经典使用场景

在自然语言处理领域，synthetic-gsm8k-reflection-405b数据集被广泛用于训练和评估多步推理模型。该数据集通过模拟小学级别的数学问题，提供了丰富的多步推理任务，涵盖了代数、几何、概率等多个主题。研究人员利用这些任务来测试模型在复杂问题上的推理能力，尤其是在需要逐步思考和反思的场景中。

衍生相关工作

基于synthetic-gsm8k-reflection-405b数据集，研究人员开发了一系列多步推理模型，如基于Transformer的推理引擎和增强学习框架。这些工作不仅提升了模型的推理能力，还为其他领域如自动化编程和智能决策系统提供了新的思路。

数据集最近研究

难度	训练集	测试集
困难	659	100
中等	737	112
非常困难	582	88