PrimeIntellect/INTELLECT-MATH-7B-SFT-Data

github2025-01-22 更新2025-01-23 收录

下载链接：

https://github.com/PrimeIntellect-ai/INTELLECT-MATH

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含733k个问题和响应，是通过使用QwQ-32B模型从NuminaMath数据集中为每个问题生成两个响应，并仅保留正确响应而生成的。

This dataset contains 733k question-response pairs, which is constructed by generating two responses for each question from the NuminaMath dataset using the QwQ-32B model, and only retaining the correct responses.

创建时间：

2025-01-17

原始信息汇总

INTELLECT-MATH 数据集概述

数据集简介

INTELLECT-MATH 是一个用于数学推理的前沿模型，包含7B参数。该模型通过两个阶段进行训练：初始的监督微调（SFT）阶段和基于Process Reinforcement through Implicit Rewards的在线强化学习阶段。

数据集生成

SFT数据集生成：使用QwQ-32B模型从NuminaMath数据集中为每个问题生成两个响应，并通过sglang推理引擎实现高吞吐量和大批量处理。最终生成的SFT数据集包含733k个问题和响应，存储于PrimeIntellect/INTELLECT-MATH-7B-SFT-Data。

模型训练

SFT模型微调：使用open-instruct对Qwen/Qwen2.5-Math-7B进行微调，生成PrimeIntellect/INTELLECT-MATH-SFT模型。
在线强化学习：在SFT模型基础上，使用PRIME-RL进行在线强化学习，生成最终的PrimeIntellect/INTELLECT-MATH模型。

性能评估

数据集	Intellect-Math (Step 255)	Intellect-Math (Step 47)	Eurus-2-Prime (Step 592)	Intellect-Math-SFT	Eurus-2-SFT	Qwen-2.5-Math
MATH-500	82.0	81.6	79.2	72.8	65.1	79.8
OLYMPIADBENCH	49.5	46.7	42.1	39.1	29.8	40.7
AIME 2024	26.7	26.7	26.7	16.6	3.3	13.3
AMC	60.2	57.8	57.8	45.8	30.1	50.6
MINERVA MATH	39.7	37.8	38.6	33.8	32.7	34.6
AVG	51.6	50.1	48.9	41.6	32.2	43.8

复现步骤

生成SFT数据集：使用synthetic-data目录中的代码生成SFT数据集。
微调模型：使用sft目录中的代码对模型进行微调。
在线强化学习：使用rl-and-evals目录中的代码进行在线强化学习。

搜集汇总

数据集介绍

构建方式

INTELLECT-MATH-7B-SFT-Data数据集的构建过程分为两个主要阶段。首先，通过使用强大的教师模型QwQ-32B，从NuminaMath数据集中为每个问题生成两个响应，并利用sglang推理引擎实现高效的大批量处理。随后，仅保留正确的响应，最终形成了包含733k个问题和响应的数据集。这一过程确保了数据集的高质量和多样性，为后续的模型训练提供了坚实的基础。

使用方法

使用INTELLECT-MATH-7B-SFT-Data数据集的方法包括三个主要步骤。首先，通过synthetic-data目录中的代码生成SFT数据集。接着，使用open-instruct工具对Qwen/Qwen2.5-Math-7B模型进行微调，生成SFT模型。最后，利用PRIME-RL进行在线强化学习，进一步提升模型的性能。每一步的详细代码和操作指南均可在相应的目录中找到，确保用户能够顺利复现整个训练过程。

背景与挑战

背景概述

INTELLECT-MATH-7B-SFT-Data数据集由PrimeIntellect团队开发，旨在通过强化学习技术提升数学推理模型的性能。该数据集的核心研究问题在于如何通过更好的初始化策略来优化强化学习过程，从而在数学推理任务中达到或超越现有最先进模型的性能。数据集构建过程中，团队采用了QwQ-32B作为教师模型，生成了包含733,000个问题和答案对的SFT数据集，为后续的强化学习提供了高质量的初始策略。这一研究不仅显著减少了强化学习的时间成本，还为数学推理领域的研究提供了新的思路和方法。

当前挑战

INTELLECT-MATH-7B-SFT-Data数据集在构建和应用过程中面临多重挑战。首先，数学推理任务的复杂性要求模型具备高度的逻辑推理能力和数学知识理解能力，这对数据集的多样性和质量提出了极高的要求。其次，在生成SFT数据集时，如何确保教师模型生成的答案准确且具有代表性，是一个关键的技术难题。此外，尽管通过SFT数据集显著减少了强化学习的时间成本，但在实际应用中，如何进一步优化强化学习过程以提升模型的泛化能力和鲁棒性，仍然是一个亟待解决的问题。这些挑战不仅影响了数据集的构建效率，也对模型的最终性能产生了深远影响。

常用场景

经典使用场景

INTELLECT-MATH-7B-SFT-Data数据集在数学推理领域具有广泛的应用，尤其是在强化学习模型的初始化阶段。通过使用强大的教师模型（如QwQ-32B）生成高质量的监督微调（SFT）数据，该数据集为后续的在线强化学习提供了更优的策略初始化。这种数据生成方式显著提升了模型在复杂数学问题上的推理能力，尤其是在MATH-500、OLYMPIADBENCH等数学基准测试中的表现。

解决学术问题

该数据集有效解决了数学推理模型在强化学习过程中初始化策略不佳的问题。通过提供高质量的SFT数据，模型能够在较短的训练时间内达到甚至超越现有最先进模型的性能。例如，INTELLECT-MATH在MATH-500测试中取得了82.0的高分，显著优于其他模型。这不仅减少了训练时间，还为数学推理领域的研究提供了新的思路和方法。

实际应用

在实际应用中，INTELLECT-MATH-7B-SFT-Data数据集被广泛用于教育技术、自动化数学问题求解以及竞赛题目生成等领域。通过该数据集训练的模型能够高效解决复杂的数学问题，如AMC和AIME等竞赛题目，为教育机构和学生提供了强大的辅助工具。此外，该数据集还可用于开发智能辅导系统，帮助学生提升数学能力。

数据集最近研究