nvidia/OpenMathInstruct-2

Name: nvidia/OpenMathInstruct-2
Creator: nvidia
Published: 2024-11-25 20:07:28
License: 暂无描述

Hugging Face2024-11-25 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/nvidia/OpenMathInstruct-2

下载链接

链接失效反馈

官方服务：

资源简介：

OpenMathInstruct-2是一个数学指令调优数据集，包含14M个问题-解决方案对，使用Llama3.1-405B-Instruct模型生成。数据集通过GSM8K和MATH训练集的问题进行构建，包括解决方案增强和问题-解决方案增强两种方式。数据集包含四个字段：problem（原始或增强的问题）、generated_solution（生成的解决方案）、expected_answer（真实答案或多数投票答案）、problem_source（问题来源）。此外，还提供了1M、2M和5M的公平下采样版本。数据集用于训练OpenMath2模型，并提供了代码、模型和数据集的开放源代码链接。

OpenMathInstruct-2 is a math instruction tuning dataset containing 14 million problem-solution pairs generated using the Llama3.1-405B-Instruct model. It includes problems from the GSM8K and MATH training sets, as well as augmented problems and solutions. The dataset features include the original problem, a synthetically generated solution, the expected answer, and the problem source. The dataset is available in various sizes, including 1M, 2M, and 5M fair-downsampled versions, and the entire training set.

提供机构：

nvidia

搜集汇总

数据集介绍

构建方式

OpenMathInstruct-2 是一个面向数学推理的指令微调数据集，包含约1400万条问题-解答对，全部由 Llama3.1-405B-Instruct 模型合成生成。其构建过程主要依托于 GSM8K 和 MATH 两大数学基准的训练集，采用两种核心策略：一是“解答增强”，即为已有问题生成链式思维（Chain-of-Thought）解答；二是“问题-解答联合增强”，即先生成新问题，再为其生成对应的解答。通过这种方式，数据集在保持数学多样性的同时，大幅扩展了训练样本的规模与覆盖面。

特点

该数据集具有鲜明的结构化特征与实用性。每条样本包含问题、合成解答、期望答案及问题来源四个字段，其中期望答案对于增强问题采用多数投票机制确定，提升了标签的鲁棒性。数据集提供多个子集版本，包括1M、2M、5M及完整的约14M样本，便于研究者根据计算资源灵活选择。此外，数据集还配套发布了污染检测工具（Contamination Explorer），支持与多个标准数学评测集进行相似性比对，助力数据质量评估与模型公平性分析。

使用方法

研究人员可通过 HuggingFace Datasets 库便捷加载该数据集，支持流式（streaming）读取以节省内存。加载时只需指定所需的子集名称（如 train_1M、train_2M、train_5M 或 train），即可获得对应规模的样本。对于需要本地存储的场景，推荐将数据转换为 JSONL 格式，便于后续处理与训练。官方还建议过滤掉长度超过1024个 Llama 词元的极长问题（约占0.1%），以优化内存使用并可能提升模型性能。

背景与挑战

背景概述

在人工智能与数学推理的交汇领域，高质量指令数据的稀缺性长期制约着大型语言模型在数学问题求解能力上的突破。由NVIDIA研究团队于2024年发布的OpenMathInstruct-2数据集，正是为应对这一挑战而生。该数据集由Shubham Toshniwal等研究者主导构建，依托Llama3.1-405B-Instruct模型，通过解决方案增强与问题-解决方案联合增强两种策略，对GSM8K和MATH训练集中的问题进行了大规模合成扩展，最终形成了包含约1400万问题-解决方案对的庞大资源。其核心研究问题在于：能否通过完全开源、可复现的合成数据生成流程，显著提升模型在数学推理任务上的表现。该数据集的影响力不仅体现在其规模上——提供了1M、2M、5M及完整训练集等多种子集，更在于其开放生态：配套发布了基于该数据训练的OpenMath2系列模型、完整的数据生成代码（NeMo-Skills）以及污染检测工具，为数学推理领域的研究提供了可复现的基准与可扩展的范本。

当前挑战

OpenMathInstruct-2所面对的挑战首先源于数学推理领域本身的复杂性：不同于一般的问答任务，数学问题求解要求模型具备严谨的逻辑链推理能力，而GSM8K和MATH等基准测试中的问题涵盖算术、代数、几何、概率等多个子领域，对模型的泛化能力提出了极高要求。在数据集构建过程中，研究团队遇到了多重技术挑战：其一，数据质量与规模之间的平衡——使用单一教师模型（Llama3.1-405B-Instruct）进行大规模合成时，如何确保生成解决方案的正确性与多样性，避免模式崩溃；其二，数据污染问题——合成数据可能无意中复现或近似测试集中的题目，为此团队专门开发了污染检测工具以评估风险；其三，极端长序列问题——约0.1%的生成问题超过1024个Llama token，虽占比极小却显著影响训练效率与内存占用，最终建议过滤此类样本；其四，公平采样策略——在提供不同规模子集时，需确保子集能代表完整数据集的分布特性，以支持可扩展性研究。

常用场景

经典使用场景

在数学推理与大规模语言模型微调的交汇领域，OpenMathInstruct-2凭借其1400万条问题-解答对，成为指令微调与监督式微调（SFT）的核心资源。该数据集以GSM8K和MATH训练集为基石，通过解决方案增强与问题-解决方案联合生成两种策略，利用Llama3.1-405B-Instruct模型合成高质量数学推理链。研究者常将其作为训练数学专用大语言模型的标准基准，通过不同规模子集（如1M、2M、5M版本）探索数据规模与模型性能之间的缩放定律，从而优化微调策略。

衍生相关工作

OpenMathInstruct-2的发布催生了多项衍生工作，形成了围绕数学推理的完整生态。其配套的NeMo-Skills开源代码库被广泛应用于复现与改进数据生成流水线，推动了合成数据质量评估方法的研究。OpenMath2系列模型（8B与70B）作为直接衍生物，在AMC 2023、AIME 2024等竞赛级基准上展现了跨任务迁移能力。此外，数据集的污染检测工具启发了后续工作对模型记忆效应的深入分析，而缩放定律曲线则为探索最优数据规模与模型容量的关系提供了实证基础，深刻影响了数学大语言模型领域的研究走向。

数据集最近研究