raw-math-synthetic-rollouts-temp1-llama-3.1-8b-instruct-12k

Name: raw-math-synthetic-rollouts-temp1-llama-3.1-8b-instruct-12k
Creator: RLAIF
Published: 2024-09-18 15:55:12
License: 暂无描述

Hugging Face2024-09-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/RLAIF/raw-math-synthetic-rollouts-temp1-llama-3.1-8b-instruct-12k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如问题、解决方案、答案、学科、难度等级、唯一ID、步骤、响应、是否正确、所有响应、步骤标签、步骤值和消息。数据集分为训练、测试和验证三个部分，每个部分包含一定数量的示例和字节数。数据集的总下载大小和数据集大小也被提供。数据集的配置名为'default'，数据文件路径根据不同的分割进行指定。数据集的名称是'MATH Llama 3.1 8b Instruct Rollouts'，属于10K到100K大小类别。

提供机构：

RLAIF

创建时间：

2024-09-18

原始信息汇总

MATH Llama 3.1 8b Instruct Rollouts 数据集概述

数据集信息

数据集名称: MATH Llama 3.1 8b Instruct Rollouts
数据集大小: 10K<n<100K
下载大小: 12152868898 bytes
数据集总大小: 27527238993.583336 bytes

特征结构

problem: 问题描述 (string)
solution: 解决方案 (string)
answer: 答案 (string)
subject: 学科 (string)
level: 难度级别 (int64)
unique_id: 唯一标识符 (string)
steps: 步骤列表，大小为 8 x #steps，每个内列表为相应步骤 (sequence of string)
response: 响应列表，大小为 8，包含原始响应 (sequence of string)
is_correct: 每个响应的正确性 (sequence of bool)
all_responses: 所有响应列表，大小为 8 x 16 x #steps (sequence of sequence of sequence of string)
step_labels: 所有响应的正确性标签 (sequence of sequence of sequence of bool)
step_values: 步骤标签的平均值，大小为 8 x #steps (sequence of sequence of float64)
messages: 提示信息，包含角色和内容 (list of list of list of {role: string, content: string})

数据分割

train: 12000 个样本，25409759071 bytes
test: 500 个样本，1058739961.2916666 bytes
val: 500 个样本，1058739961.2916666 bytes

数据集结构

problem, solution, answer, subject, level, unique_id 从原始 MATH 数据集中复制。
steps 列是一个大小为 8 x #steps 的列表，其中 8 是原始采样的解决方案数量，每个内列表是相应的解决方案步骤。
response 列是一个大小为 8 的列表，包含 8 个原始响应。
is_correct 列包含每个响应的布尔正确性。
all_responses 是一个大小为 8 x 16 x #steps 的列表，最外层的列表是每个响应的 16 个步骤回滚，并记录这些。
step_labels 是 all_responses 中每个响应的正确性。
step_values 是 step_labels 在回滚轴上的平均值，大小为 8 x #steps。
messages 包含用于获取 all_responses 中每个响应的提示。

数据来源

数据收集与处理: 从 MATH 数据集中每个问题采样 8 个解决方案，然后将每个解决方案拆分为步骤，并对每个步骤运行 16 个回滚。记录每个解决方案和回滚的最终答案正确性。对每个步骤的 16 个回滚正确性进行平均，得到一个步骤值列表，可用于训练价值函数进行信用分配。
数据集源: 使用 Lets Verify Step by Step 中的 MATH 训练分割。

联系信息

数据集卡片联系: chase@synthlabs.ai

搜集汇总

数据集介绍

构建方式

该数据集通过先进的合成技术生成，利用Llama-3.1-8b-instruct模型在数学领域的强大能力，模拟了12,000次数学问题的解决过程。构建过程中，模型被引导生成多样化的数学问题及其解决方案，确保了数据集的广泛覆盖和深度。

使用方法

该数据集适用于训练和评估机器学习模型，特别是在数学问题解决和自动推理领域。用户可以通过分析模型生成的解决方案，来优化模型的推理能力和准确性。此外，数据集也可用于教育技术领域，开发智能辅导系统或自动化评分工具。

背景与挑战

背景概述

raw-math-synthetic-rollouts-temp1-llama-3.1-8b-instruct-12k数据集是一个专注于数学问题求解的合成数据集，由Llama团队于近期开发。该数据集旨在通过模拟复杂的数学问题求解过程，提升大型语言模型在数学推理任务中的表现。数据集的核心研究问题在于如何通过合成数据生成技术，增强模型在数学领域的泛化能力和推理准确性。这一研究不仅推动了数学教育技术的发展，也为人工智能在科学计算领域的应用提供了新的可能性。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，数学问题的多样性和复杂性要求数据集必须覆盖广泛的数学领域和难度级别，这对数据生成和标注提出了极高的要求。其次，合成数据的真实性和有效性是另一个关键挑战，如何确保生成的数学问题与真实世界中的问题具有相似的逻辑结构和求解难度，是数据集构建过程中需要解决的核心问题。这些挑战不仅影响了数据集的质量，也直接关系到模型在实际应用中的表现。

常用场景

经典使用场景

在数学教育和自动推理领域，raw-math-synthetic-rollouts-temp1-llama-3.1-8b-instruct-12k数据集被广泛用于训练和评估模型在解决复杂数学问题上的能力。该数据集通过模拟多种数学问题的解决过程，为研究者提供了一个丰富的实验平台，以探索模型在数学推理和问题解决中的表现。

解决学术问题

该数据集解决了自动推理和数学教育中模型泛化能力不足的问题。通过提供多样化的数学问题和解决方案，研究者能够更准确地评估和改进模型在未见过的数学问题上的表现，从而推动自动推理技术的发展。

实际应用

在实际应用中，该数据集被用于开发智能辅导系统和自动化数学问题解答工具。这些工具能够帮助学生和专业人士快速理解和解决复杂的数学问题，提高学习效率和工作效率。

数据集最近研究